論文の概要: C-MORE: Pretraining to Answer Open-Domain Questions by Consulting
Millions of References
- arxiv url: http://arxiv.org/abs/2203.08928v1
- Date: Wed, 16 Mar 2022 20:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 14:04:20.845618
- Title: C-MORE: Pretraining to Answer Open-Domain Questions by Consulting
Millions of References
- Title(参考訳): C-MORE:数百万の参考文献を照会してオープンドメインの質問に答える
- Authors: Xiang Yue, Xiaoman Pan, Wenlin Yao, Dian Yu, Dong Yu and Jianshu Chen
- Abstract要約: 主な課題は、タスク固有のアノテーションを使わずに、高品質な質問-回答-コンテキスト三つ子を構築する方法である。
本研究では,ウィキペディアで引用される数百万の参照を参考に,3つの基準をすべて満たす大規模コーパスを自動構築する。
事前学習したレトリバーは,トップ20の精度で2%~10%の絶対ゲインを達成し,事前学習した読者では,システム全体の一致率を最大4%向上させる。
- 参考スコア(独自算出の注目度): 47.20656650130518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of pretraining a two-stage open-domain question
answering (QA) system (retriever + reader) with strong transfer capabilities.
The key challenge is how to construct a large amount of high-quality
question-answer-context triplets without task-specific annotations.
Specifically, the triplets should align well with downstream tasks by: (i)
covering a wide range of domains (for open-domain applications), (ii) linking a
question to its semantically relevant context with supporting evidence (for
training the retriever), and (iii) identifying the correct answer in the
context (for training the reader). Previous pretraining approaches generally
fall short of one or more of these requirements. In this work, we automatically
construct a large-scale corpus that meets all three criteria by consulting
millions of references cited within Wikipedia. The well-aligned pretraining
signals benefit both the retriever and the reader significantly. Our pretrained
retriever leads to 2%-10% absolute gains in top-20 accuracy. And with our
pretrained reader, the entire system improves by up to 4% in exact match.
- Abstract(参考訳): 我々は、強い転送能力を持つ2段階のオープンドメイン質問応答(qa)システム(retriever + reader)を事前トレーニングする問題を考える。
重要な課題は、タスク固有のアノテーションを使わずに、高品質な質問応答コンテキスト三つ子をどのように構築するかである。
特に、トリプレットは下記のタスクとうまく連携するべきである。
(i)広い範囲のドメイン(オープンドメインアプリケーション)をカバーすること。
(ii)質問とその意味的に関連のある文脈と(レトリバーを訓練するために)裏付ける証拠を結びつけること
(iii)(読者を訓練するために)文脈における正しい回答を特定すること。
以前の事前学習アプローチは、一般的にこれらの要件の1つまたは複数に満たない。
本研究では,ウィキペディアで引用される数百万の参照を参考に,3つの基準をすべて満たす大規模コーパスを自動構築する。
整列した事前学習信号は、レトリバーとリーダーの両方に有益である。
事前学習したリトリーバーは、20の精度で2%-10%の絶対ゲインを得る。
トレーニング済みの読者では、システム全体の正確なマッチが最大4%向上します。
関連論文リスト
- Pre-training, Fine-tuning and Re-ranking: A Three-Stage Framework for Legal Question Answering [20.948737566388036]
法的質問応答(QA)は、法的助言を求める人々から注目を集めている。
従来の手法では、主に二重エンコーダアーキテクチャを使用して、質問と回答の密集した表現を学習していた。
本稿では,アンダーラインプレトレーニング,アンダーラインファインチューニング,アンダーラインレグレードのための3段階フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-27T06:33:42Z) - Do RAG Systems Cover What Matters? Evaluating and Optimizing Responses with Sub-Question Coverage [74.70255719194819]
サブクエストカバレッジに基づく新しいフレームワークを導入し、RAGシステムが質問の異なる面にどのように対処するかを計測する。
このフレームワークを使用して、You.com、Perplexity AI、Bing Chatの3つの商用生成応答エンジンを評価します。
すべての回答エンジンは、バックグラウンドやフォローアップよりも、コアサブクエストを頻繁にカバーしていますが、コアサブクエストの約50%を見逃しています。
論文 参考訳(メタデータ) (2024-10-20T22:59:34Z) - ScopeQA: A Framework for Generating Out-of-Scope Questions for RAG [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,多様な境界線外質問を効率よく生成する,ガイド付き幻覚に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Open-domain Question Answering via Chain of Reasoning over Heterogeneous
Knowledge [82.5582220249183]
異種知識ソース間のシングル/マルチホップ質問に応答する新しいオープンドメイン質問応答(ODQA)フレームワークを提案する。
分離された証拠を収集するためにレトリバーにのみ依存する従来の方法とは異なり、我々の仲介者は検索された集合に対する推論の連鎖を実行する。
本システムは,2つのODQAデータセットであるOTT-QAとNQに対して,Wikipediaの表や節に対する競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-22T03:21:32Z) - Multifaceted Improvements for Conversational Open-Domain Question
Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。
第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。
第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。
第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文 参考訳(メタデータ) (2022-04-01T07:54:27Z) - End-to-End Training of Multi-Document Reader and Retriever for
Open-Domain Question Answering [36.80395759543162]
本稿では,検索拡張されたオープンドメイン質問応答システムに対するエンドツーエンドの差別化学習手法を提案する。
我々は,検索決定を関連文書の集合よりも遅延変数としてモデル化する。
提案手法は,一致点の精度を2~3%向上させる。
論文 参考訳(メタデータ) (2021-06-09T19:25:37Z) - ComQA:Compositional Question Answering via Hierarchical Graph Neural
Networks [47.12013005600986]
我々は,120万以上の人間ラベル質問を含む大規模構成質問応答データセットを提案する。
ComQA問題に対処するために,低レベル語から高レベル語までの文書を表す階層型グラフニューラルネットワークを提案する。
提案モデルは,先行する機械読解法や事前学習法に比べて大幅に改善する。
論文 参考訳(メタデータ) (2021-01-16T08:23:27Z) - Open-Domain Question Answering with Pre-Constructed Question Spaces [70.13619499853756]
オープンドメインの質問応答は、大量の文書の集合の中でユーザ生成した質問に対する回答を見つけるという課題を解決することを目的としている。
ソリューションには、レトリバーリーダーとナレッジグラフベースのアプローチの2つのファミリーがある。
本稿では,両家系と異なるリーダ・リトリバー構造を持つ新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-02T04:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。