Fugu-MT 論文翻訳(概要): Dense X Retrieval: What Retrieval Granularity Should We Use?

論文の概要: Dense X Retrieval: What Retrieval Granularity Should We Use?

arxiv url: http://arxiv.org/abs/2312.06648v1
Date: Mon, 11 Dec 2023 18:57:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 14:07:41.561816
Title: Dense X Retrieval: What Retrieval Granularity Should We Use?
Title（参考訳）: Dense X Retrieval:どの検索粒度を使うべきか?
Authors: Tong Chen, Hongwei Wang, Sihao Chen, Wenhao Yu, Kaixin Ma, Xinran Zhao, Dong Yu, Hongming Zhang
Abstract要約: しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。提案手法はテキスト内の原子式として定義され,それぞれが別個のファクトイドをカプセル化している。その結果,命題に基づく検索は,従来の通訳法や文による検索方法よりも格段に優れていることがわかった。
参考スコア（独自算出の注目度）: 59.359325855708974
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dense retrieval has become a prominent method to obtain relevant context or world knowledge in open-domain NLP tasks. When we use a learned dense retriever on a retrieval corpus at inference time, an often-overlooked design choice is the retrieval unit in which the corpus is indexed, e.g. document, passage, or sentence. We discover that the retrieval unit choice significantly impacts the performance of both retrieval and downstream tasks. Distinct from the typical approach of using passages or sentences, we introduce a novel retrieval unit, proposition, for dense retrieval. Propositions are defined as atomic expressions within text, each encapsulating a distinct factoid and presented in a concise, self-contained natural language format. We conduct an empirical comparison of different retrieval granularity. Our results reveal that proposition-based retrieval significantly outperforms traditional passage or sentence-based methods in dense retrieval. Moreover, retrieval by proposition also enhances the performance of downstream QA tasks, since the retrieved texts are more condensed with question-relevant information, reducing the need for lengthy input tokens and minimizing the inclusion of extraneous, irrelevant information.
Abstract（参考訳）: 密検索は、オープンドメインnlpタスクで関連する文脈や世界知識を得るための顕著な方法となっている。推定時に検索コーパス上で学習された高密度検索器を使用する場合、しばしば見過ごされる設計選択は、文書、文、文などのコーパスをインデックス化する検索ユニットである。検索ユニットの選択が検索タスクと下流タスクの両方のパフォーマンスに大きく影響することを発見した。文や文を用いる典型的な手法とは別として,新しい検索単位である命題を導入し,密検索を行う。命題はテキスト内のアトミック表現として定義され、それぞれ異なるファクトイドをカプセル化し、簡潔で自己完結した自然言語形式で示される。我々は異なる検索粒度の実証的な比較を行う。その結果, 提案に基づく検索は, 従来手法や文単位の検索方法を大きく上回ることがわかった。さらに、提案による検索は、検索されたテキストが質問関連情報に凝縮されやすくなり、長い入力トークンの必要が減り、不要な情報を最小化するため、下流QAタスクの性能も向上する。

関連論文リスト

ELITE: Embedding-Less retrieval with Iterative Text Exploration [5.8851517822935335]
大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。長期のコンテキスト制約を維持する能力は、ドキュメントレベルやマルチターンタスクのパフォーマンスを制限します。
論文参考訳（メタデータ） (2025-05-17T08:48:43Z)
Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Improve Dense Passage Retrieval with Entailment Tuning [22.39221206192245]
検索システムの鍵となるのは、クエリとパスペアの関連スコアを計算することである。我々は、NLIタスクにおけるエンテーメントの概念と、関連性の主要なクラスが一致していることを観察した。我々は,高密度レトリバーの埋め込みを改善するために,エンテーメントチューニングと呼ばれる手法を設計する。
論文参考訳（メタデータ） (2024-10-21T09:18:30Z)
Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。 ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2023-10-19T03:51:10Z)
Augmented Embeddings for Custom Retrievals [13.773007276544913]
本稿では,タスク固有性,異種性,厳密な検索を実現するための埋め込み変換機構であるAdapted Dense Retrievalを紹介する。 Dense Retrievalは、事前訓練されたブラックボックス埋め込みの低ランク残差適応を学習することで機能する。
論文参考訳（メタデータ） (2023-10-09T03:29:35Z)
Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文参考訳（メタデータ） (2022-10-25T00:53:06Z)
UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文参考訳（メタデータ） (2022-05-23T11:01:59Z)
Phrase Retrieval Learns Passage Retrieval, Too [77.57208968326422]
文節検索が,文節や文書を含む粗いレベルの検索の基盤となるかを検討する。句検索システムでは,句検索の精度が向上し,句検索の精度が向上していることを示す。また,句のフィルタリングやベクトル量子化により,インデックスのサイズを4～10倍に削減できることを示す。
論文参考訳（メタデータ） (2021-09-16T17:42:45Z)
Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。 GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文参考訳（メタデータ） (2020-09-17T23:08:01Z)
Progressively Pretrained Dense Corpus Index for Open-Domain Question Answering [87.32442219333046]
本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
論文参考訳（メタデータ） (2020-04-30T18:09:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。