論文の概要: Questions Are All You Need to Train a Dense Passage Retriever
- arxiv url: http://arxiv.org/abs/2206.10658v1
- Date: Tue, 21 Jun 2022 18:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 15:33:41.873411
- Title: Questions Are All You Need to Train a Dense Passage Retriever
- Title(参考訳): 質問は、密集した通路のレトリバーを訓練するしかないか?
- Authors: Devendra Singh Sachan and Mike Lewis and Dani Yogatama and Luke
Zettlemoyer and Joelle Pineau and Manzil Zaheer
- Abstract要約: ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
- 参考スコア(独自算出の注目度): 123.13872383489172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ART, a new corpus-level autoencoding approach for training dense
retrieval models that does not require any labeled training data. Dense
retrieval is a central challenge for open-domain tasks, such as Open QA, where
state-of-the-art methods typically require large supervised datasets with
custom hard-negative mining and denoising of positive examples. ART, in
contrast, only requires access to unpaired inputs and outputs (e.g. questions
and potential answer documents). It uses a new document-retrieval autoencoding
scheme, where (1) an input question is used to retrieve a set of evidence
documents, and (2) the documents are then used to compute the probability of
reconstructing the original question. Training for retrieval based on question
reconstruction enables effective unsupervised learning of both document and
question encoders, which can be later incorporated into complete Open QA
systems without any further finetuning. Extensive experiments demonstrate that
ART obtains state-of-the-art results on multiple QA retrieval benchmarks with
only generic initialization from a pre-trained language model, removing the
need for labeled data and task-specific losses.
- Abstract(参考訳): ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための,新しいコーパスレベルの自動エンコーディング手法であるartを紹介する。
高度な検索は、open qaのようなオープンドメインタスクの中心的な課題であり、最先端の手法では、カスタムのハード負のマイニングとポジティブな例の否定を伴う大規模な教師ありデータセットを必要とする。
対照的にARTは、未解決の入力や出力(質問や潜在的な回答文書など)へのアクセスのみを必要とする。
新たな文書リトライバル自動エンコーディング方式を用いて,(1)証拠文書の集合を検索するために入力質問を使用し,(2)文書を用いて元の質問を再構築する確率を計算する。
質問再構成に基づく検索の訓練は、文書と質問エンコーダの効果的な教師なし学習を可能にし、後から完全なオープンQAシステムに組み込むことができる。
広範囲な実験により、ARTは事前訓練された言語モデルからのみ汎用的な初期化を行い、ラベル付きデータやタスク固有の損失を除去し、複数のQA検索ベンチマークで最先端の結果を得ることができた。
関連論文リスト
- Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual
Question Answering [16.52970318866536]
本稿では,視覚的質問応答タスクのカテゴリについて検討する。
OK-VQAシステムの開発における大きなステップは、与えられたマルチモーダルクエリに関連するドキュメントを取得することである。
そこで本稿では,OK-VQAタスクの経路検索モデルの事前学習のための自動データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2023-06-28T18:06:40Z) - PIE-QG: Paraphrased Information Extraction for Unsupervised Question
Generation from Small Corpora [4.721845865189576]
PIE-QGは、オープン情報抽出(OpenIE)を使用して、パラフレーズ付き通路から合成トレーニング質問を生成する。
主語,述語,対象>の3つを各節から抽出し,主語(または対象)と述語で質問し,対象(または対象)を回答とする。
論文 参考訳(メタデータ) (2023-01-03T12:20:51Z) - Retrieval as Attention: End-to-end Learning of Retrieval and Reading
within a Single Transformer [80.50327229467993]
学習した1つのモデルが競合検索とQA性能の両方を達成可能であることを示す。
エンドツーエンド適応は、教師なし設定と教師なし設定の両方において、ドメイン外のデータセットのパフォーマンスを大幅に向上させることを示す。
論文 参考訳(メタデータ) (2022-12-05T04:51:21Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Weakly Supervised Pre-Training for Multi-Hop Retriever [23.79574380039197]
本研究では,人的努力を伴わない,弱教師付きマルチホップレトリバーの事前学習手法を提案する。
提案手法は,1)複雑な質問のベクトル表現を生成するための事前学習タスク,2)厳密なエンコーダに基づく事前学習モデル構造として,質問とサブクエストのネスト構造を生成するスケーラブルなデータ生成手法を含む。
論文 参考訳(メタデータ) (2021-06-18T08:06:02Z) - Distilling Knowledge from Reader to Retriever for Question Answering [16.942581590186343]
我々は,知識蒸留に触発された下流タスクのレトリバーモデルを学ぶ手法を提案する。
質問応答の方法を評価し,最新の結果を得た。
論文 参考訳(メタデータ) (2020-12-08T17:36:34Z) - Open Question Answering over Tables and Text [55.8412170633547]
オープンな質問応答(QA)では、質問に対する回答は、質問に対する回答を含む可能性のある文書を検索して分析することによって生成される。
ほとんどのオープンQAシステムは、構造化されていないテキストからのみ情報を取得することを検討している。
我々は,このタスクの性能を評価するために,新しい大規模データセット Open Table-and-Text Question Answering (OTT-QA) を提案する。
論文 参考訳(メタデータ) (2020-10-20T16:48:14Z) - Pre-training Tasks for Embedding-based Large-scale Retrieval [68.01167604281578]
本稿では,大規模クエリ文書検索問題について考察する。
クエリ(例えば質問)が与えられたら、関連するドキュメントのセットを大きなドキュメントコーパスから返します。
本稿では, 組込み型トランスフォーマーモデルの学習の鍵となる要素が, 事前学習作業のセットであることを示す。
論文 参考訳(メタデータ) (2020-02-10T16:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。