論文の概要: Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering
- arxiv url: http://arxiv.org/abs/2005.00038v2
- Date: Fri, 19 Feb 2021 04:37:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 04:51:29.131412
- Title: Progressively Pretrained Dense Corpus Index for Open-Domain Question
Answering
- Title(参考訳): オープンドメイン質問応答のための事前学習Dense Corpus Index
- Authors: Wenhan Xiong, Hong Wang, William Yang Wang
- Abstract要約: 本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。
本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
- 参考スコア(独自算出の注目度): 87.32442219333046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To extract answers from a large corpus, open-domain question answering (QA)
systems usually rely on information retrieval (IR) techniques to narrow the
search space. Standard inverted index methods such as TF-IDF are commonly used
as thanks to their efficiency. However, their retrieval performance is limited
as they simply use shallow and sparse lexical features. To break the IR
bottleneck, recent studies show that stronger retrieval performance can be
achieved by pretraining a effective paragraph encoder that index paragraphs
into dense vectors. Once trained, the corpus can be pre-encoded into
low-dimensional vectors and stored within an index structure where the
retrieval can be efficiently implemented as maximum inner product search.
Despite the promising results, pretraining such a dense index is expensive
and often requires a very large batch size. In this work, we propose a simple
and resource-efficient method to pretrain the paragraph encoder. First, instead
of using heuristically created pseudo question-paragraph pairs for pretraining,
we utilize an existing pretrained sequence-to-sequence model to build a strong
question generator that creates high-quality pretraining data. Second, we
propose a progressive pretraining algorithm to ensure the existence of
effective negative samples in each batch. Across three datasets, our method
outperforms an existing dense retrieval method that uses 7 times more
computational resources for pretraining.
- Abstract(参考訳): 大規模なコーパスから回答を抽出するために、オープンドメイン質問応答(QA)システムは、通常、検索空間を狭めるために情報検索(IR)技術に依存する。
TF-IDFのような標準逆インデックス法は、その効率性によって一般的に用いられる。
しかし,その検索性能は,浅い語彙的特徴を単純に用いているため限られている。
IRボトルネックを解消するため,近年の研究では,指数段落を高密度ベクトルに変換する実効段落エンコーダを事前学習することにより,検索性能の向上が図られている。
訓練後、コーパスを低次元ベクトルにプリエンコードしてインデックス構造に格納し、検索を最大内部積探索として効率的に行うことができる。
有望な結果にもかかわらず、そのような高密度インデックスの事前トレーニングは高価であり、しばしば非常に大きなバッチサイズを必要とする。
本研究では,段落エンコーダをプリトレーニングするための簡易かつ資源効率の良い手法を提案する。
まず,事前学習のための疑似質問-パラグラフペアをヒューリスティックに生成する代わりに,既存の事前学習シーケンス-シーケンスモデルを用いて,高品質な事前学習データを生成する強力な質問生成装置を構築する。
次に,各バッチに有意な負のサンプルが存在することを保証するプログレッシブ事前学習アルゴリズムを提案する。
3つのデータセット間で,本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
関連論文リスト
- Dense X Retrieval: What Retrieval Granularity Should We Use? [59.359325855708974]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
提案手法はテキスト内の原子式として定義され,それぞれが別個のファクトイドをカプセル化している。
その結果,命題に基づく検索は,従来の通訳法や文による検索方法よりも格段に優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Augmented Embeddings for Custom Retrievals [13.773007276544913]
本稿では,タスク固有性,異種性,厳密な検索を実現するための埋め込み変換機構であるAdapted Dense Retrievalを紹介する。
Dense Retrievalは、事前訓練されたブラックボックス埋め込みの低ランク残差適応を学習することで機能する。
論文 参考訳(メタデータ) (2023-10-09T03:29:35Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。
本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。
コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文 参考訳(メタデータ) (2022-10-25T00:53:06Z) - CorpusBrain: Pre-train a Generative Retrieval Model for
Knowledge-Intensive Language Tasks [62.22920673080208]
単一ステップ生成モデルは、検索プロセスを劇的に単純化し、エンドツーエンドで最適化することができる。
我々は、事前学習された生成検索モデルをCorpsBrainと名付け、コーパスに関する全ての情報が、追加のインデックスを構築することなく、そのパラメータにエンコードされる。
論文 参考訳(メタデータ) (2022-08-16T10:22:49Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - A New Sentence Ordering Method Using BERT Pretrained Model [2.1793134762413433]
本稿では,訓練段階を必要とせず,学習のための大きなコーパスを必要とする文順序付け手法を提案する。
提案手法は,5文ストーリーのコーパスであるROCStoriesの他のベースラインよりも優れていた。
この方法の他の利点の1つは、言語知識に対する解釈可能性と不要性である。
論文 参考訳(メタデータ) (2021-08-26T18:47:15Z) - Best-First Beam Search [78.71330480725668]
本研究では,ビームサーチの標準実装を10倍高速に実現可能であることを示す。
ダウンストリーム性能の面でも同様に有益な探索バイアスを有するBest-First Beam Searchのメモリ再生版を提案する。
論文 参考訳(メタデータ) (2020-07-08T05:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。