論文の概要: Enhanced vectors for top-k document retrieval in Question Answering
- arxiv url: http://arxiv.org/abs/2210.10584v1
- Date: Sat, 8 Oct 2022 07:44:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 20:36:56.863974
- Title: Enhanced vectors for top-k document retrieval in Question Answering
- Title(参考訳): 質問応答におけるトップk文書検索のための拡張ベクトル
- Authors: Mohammed Hammad
- Abstract要約: 本稿では,証拠文書を効率よく正確に検索する別の手法を提案する。
私たちは、それぞれのドキュメント(または私たちの場合のパス)をユニークな識別子に割り当て、それらを使って密度の高いベクトルを生成することで、そうします。
このアプローチにより、リアルタイムクエリベクトルを4ミリ秒で効率的に作成できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern day applications, especially information retrieval webapps that
involve "search" as their use cases are gradually moving towards "answering"
modules. Conversational chatbots which have been proved to be more engaging to
users, use Question Answering as their core. Since, precise answering is
computationally expensive, several approaches have been developed to prefetch
the most relevant documents/passages from the database that contain the answer.
We propose a different approach that retrieves the evidence documents
efficiently and accurately, making sure that the relevant document for a given
user query is not missed. We do so by assigning each document (or passage in
our case), a unique identifier and using them to create dense vectors which can
be efficiently indexed. More precisely, we use the identifier to predict
randomly sampled context window words of the relevant question corresponding to
the passage along with the words of passage itself. This naturally embeds the
passage identifier into the vector space in such a way that the embedding is
closer to the question without compromising he information content. This
approach enables efficient creation of real-time query vectors in ~4
milliseconds.
- Abstract(参考訳): 現代のアプリケーション、特に"検索"をユースケースとして含む情報検索Webアプリは、徐々に"回答"モジュールへと移行している。
会話型チャットボットは、ユーザーにとってより魅力的であることが証明された。
正確な回答は計算コストが高いため、回答を含むデータベースから最も関連する文書やパスを先取りする手法がいくつか開発されている。
そこで本研究では,エビデンス文書を効率的にかつ正確に検索し,ユーザクエリの関連文書を見逃さないようにする手法を提案する。
私たちは、各ドキュメント(または私たちの場合のパッセージ)をユニークな識別子に割り当て、それらを効率的にインデックス化できる密集したベクトルを作成することで、そうします。
より正確には、識別子を用いて、その文に対応する関連する質問のランダムにサンプリングされたコンテキストウインドウワードとその文語自体を予測する。
これは自然に経路識別子をベクトル空間に埋め込み、he情報内容に妥協することなく埋め込みが問題に近付くようにする。
このアプローチにより、約4ミリ秒でリアルタイムクエリベクトルを効率的に作成できる。
関連論文リスト
- Optimization of Retrieval-Augmented Generation Context with Outlier Detection [0.0]
そこで本研究では,質問応答システムに必要な文脈の小型化と品質向上に焦点をあてる。
私たちのゴールは、最も意味のあるドキュメントを選択し、捨てられたドキュメントをアウトリーチとして扱うことです。
その結果,質問や回答の複雑さを増大させることで,最大の改善が達成された。
論文 参考訳(メタデータ) (2024-07-01T15:53:29Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Walking Down the Memory Maze: Beyond Context Limit through Interactive
Reading [63.93888816206071]
我々は,長いコンテキストを要約ノードのツリーに処理する手法であるMemWalkerを紹介した。クエリを受信すると,モデルがこのツリーをナビゲートして関連する情報を検索し,十分な情報を収集すると応答する。
その結果,MemWalkerは,テキストを対話的に読み取る際の推論ステップを強調し,クエリに関連するテキストセグメントをピンポイントすることで,説明性の向上を図っている。
論文 参考訳(メタデータ) (2023-10-08T06:18:14Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Asking questions on handwritten document collections [35.85762649504866]
本研究は手書き文書コレクションにおける質問回答(QA)の問題に対処する。
一般的なQAやVQA(Visual Question Answering)とは違い,回答は短いテキストである。
我々は,手書き文書や,堅牢なテキスト認識が困難な歴史的コレクションに,認識自由なアプローチが適していると主張している。
論文 参考訳(メタデータ) (2021-10-02T02:40:40Z) - Answering Complex Open-Domain Questions with Multi-Hop Dense Retrieval [117.07047313964773]
複雑なオープンドメインの質問に答えるために, 単純で効率的なマルチホップ高密度検索手法を提案する。
本手法では,文書間ハイパーリンクやアノテートされたエンティティマーカーなど,コーパス固有の情報へのアクセスは不要である。
提案システムでは,HotpotQA上でのベストパブリッシュ精度と,推論時の10倍の速度で,より優れた効率・精度のトレードオフも実現している。
論文 参考訳(メタデータ) (2020-09-27T06:12:29Z) - Open-Domain Question Answering with Pre-Constructed Question Spaces [70.13619499853756]
オープンドメインの質問応答は、大量の文書の集合の中でユーザ生成した質問に対する回答を見つけるという課題を解決することを目的としている。
ソリューションには、レトリバーリーダーとナレッジグラフベースのアプローチの2つのファミリーがある。
本稿では,両家系と異なるリーダ・リトリバー構造を持つ新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-02T04:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。