Fugu-MT 論文翻訳(概要): Progressively Pretrained Dense Corpus Index for Open-Domain Question Answering

論文の概要: Progressively Pretrained Dense Corpus Index for Open-Domain Question Answering

arxiv url: http://arxiv.org/abs/2005.00038v2
Date: Fri, 19 Feb 2021 04:37:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-08 04:51:29.131412
Title: Progressively Pretrained Dense Corpus Index for Open-Domain Question Answering
Title（参考訳）: オープンドメイン質問応答のための事前学習Dense Corpus Index
Authors: Wenhan Xiong, Hong Wang, William Yang Wang
Abstract要約: 本稿では,段落エンコーダを事前学習するための簡易かつ資源効率の高い手法を提案する。本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。
参考スコア（独自算出の注目度）: 87.32442219333046
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To extract answers from a large corpus, open-domain question answering (QA) systems usually rely on information retrieval (IR) techniques to narrow the search space. Standard inverted index methods such as TF-IDF are commonly used as thanks to their efficiency. However, their retrieval performance is limited as they simply use shallow and sparse lexical features. To break the IR bottleneck, recent studies show that stronger retrieval performance can be achieved by pretraining a effective paragraph encoder that index paragraphs into dense vectors. Once trained, the corpus can be pre-encoded into low-dimensional vectors and stored within an index structure where the retrieval can be efficiently implemented as maximum inner product search. Despite the promising results, pretraining such a dense index is expensive and often requires a very large batch size. In this work, we propose a simple and resource-efficient method to pretrain the paragraph encoder. First, instead of using heuristically created pseudo question-paragraph pairs for pretraining, we utilize an existing pretrained sequence-to-sequence model to build a strong question generator that creates high-quality pretraining data. Second, we propose a progressive pretraining algorithm to ensure the existence of effective negative samples in each batch. Across three datasets, our method outperforms an existing dense retrieval method that uses 7 times more computational resources for pretraining.
Abstract（参考訳）: 大規模なコーパスから回答を抽出するために、オープンドメイン質問応答(QA)システムは、通常、検索空間を狭めるために情報検索(IR)技術に依存する。 TF-IDFのような標準逆インデックス法は、その効率性によって一般的に用いられる。しかし,その検索性能は,浅い語彙的特徴を単純に用いているため限られている。 IRボトルネックを解消するため,近年の研究では,指数段落を高密度ベクトルに変換する実効段落エンコーダを事前学習することにより,検索性能の向上が図られている。訓練後、コーパスを低次元ベクトルにプリエンコードしてインデックス構造に格納し、検索を最大内部積探索として効率的に行うことができる。有望な結果にもかかわらず、そのような高密度インデックスの事前トレーニングは高価であり、しばしば非常に大きなバッチサイズを必要とする。本研究では,段落エンコーダをプリトレーニングするための簡易かつ資源効率の良い手法を提案する。まず,事前学習のための疑似質問-パラグラフペアをヒューリスティックに生成する代わりに,既存の事前学習シーケンス-シーケンスモデルを用いて,高品質な事前学習データを生成する強力な質問生成装置を構築する。次に,各バッチに有意な負のサンプルが存在することを保証するプログレッシブ事前学習アルゴリズムを提案する。 3つのデータセット間で,本手法は,事前学習に7倍の計算資源を使用する既存の高密度検索法より優れている。

関連論文リスト

Early Exit Strategies for Approximate k-NN Search in Dense Retrieval [10.48678957367324]
アーリーエグジットのための最先端のA-kNNを構築し,忍耐の概念に基づく教師なし手法を提案する。我々は,A-kNNの効率を最大5倍の高速化で向上すると同時に,無視可能な効率損失を達成できることを示す。
論文参考訳（メタデータ） (2024-08-09T10:17:07Z)
Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative Retrieval [108.9772640854136]
生成検索は、クエリに応答して関連するドキュメント識別子を直接生成するために、識別可能な検索インデックスを使用する。近年の研究では、微調整による下流検索タスクを強化するために、慎重に訓練された事前学習タスクで訓練された強力な生成検索モデルの可能性を強調している。生成検索のためのブートストラップ付き事前学習手法であるBootRetを導入し,事前学習中に文書識別子を動的に調整し,コーパスの継続に対応する。
論文参考訳（メタデータ） (2024-07-16T08:42:36Z)
DeeperImpact: Optimizing Sparse Learned Index Structures [4.92919246305126]
我々は、SPLADEの最も効果的なバージョンと有効性ギャップを狭めることに重点を置いている。その結果,SPLADEの最も有効なバージョンとの有効性ギャップは著しく狭められた。
論文参考訳（メタデータ） (2024-05-27T12:08:59Z)
Semi-Parametric Retrieval via Binary Token Index [71.78109794895065]
Semi-parametric Vocabulary Disentangled Retrieval (SVDR) は、新しい半パラメトリック検索フレームワークである。既存のニューラル検索手法に似た、高い有効性のための埋め込みベースのインデックスと、従来の用語ベースの検索に似た、迅速かつ費用対効果の高いセットアップを可能にするバイナリトークンインデックスの2つのタイプをサポートする。埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
論文参考訳（メタデータ） (2024-05-03T08:34:13Z)
Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。本稿では,高密度検索のための新しい検索ユニット,命題を提案する。実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文参考訳（メタデータ） (2023-12-11T18:57:35Z)
Augmented Embeddings for Custom Retrievals [13.773007276544913]
本稿では,タスク固有性,異種性,厳密な検索を実現するための埋め込み変換機構であるAdapted Dense Retrievalを紹介する。 Dense Retrievalは、事前訓練されたブラックボックス埋め込みの低ランク残差適応を学習することで機能する。
論文参考訳（メタデータ） (2023-10-09T03:29:35Z)
Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。 LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文参考訳（メタデータ） (2023-07-31T15:44:26Z)
Bridging the Training-Inference Gap for Dense Phrase Retrieval [104.4836127502683]
密度の高いレトリバーを構築するには、トレーニングやニューラルネットワークの検証など、一連の標準手順が必要である。本稿では,高密度検索におけるトレーニングと推論のギャップを減らせる方法について検討する。コーパス全体の小さな部分集合を用いて高密度レトリバーを効率よく検証する方法を提案する。
論文参考訳（メタデータ） (2022-10-25T00:53:06Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
Best-First Beam Search [78.71330480725668]
本研究では,ビームサーチの標準実装を10倍高速に実現可能であることを示す。ダウンストリーム性能の面でも同様に有益な探索バイアスを有するBest-First Beam Searchのメモリ再生版を提案する。
論文参考訳（メタデータ） (2020-07-08T05:56:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。