論文の概要: Mitigating False-Negative Contexts in Multi-document QuestionAnswering
with Retrieval Marginalization
- arxiv url: http://arxiv.org/abs/2103.12235v1
- Date: Mon, 22 Mar 2021 23:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 03:29:54.140977
- Title: Mitigating False-Negative Contexts in Multi-document QuestionAnswering
with Retrieval Marginalization
- Title(参考訳): 検索辺縁化を伴うマルチドキュメント質問応答における偽陰性文脈の緩和
- Authors: Ansong Ni, Matt Gardner, Pradeep Dasigi
- Abstract要約: 応答不能なクエリを適切に処理するset-valued検索の新しいパラメータ化を開発している。
トレーニング中にこの集合を限界化することで、モデルが注釈付き支持証拠の偽陰性を緩和できることを示す。
IIRCでは,代替文脈の余分化による連成モデリングによりモデル性能が5.5F1ポイント向上し,50.6F1の新たな最先端性能が得られることを示す。
- 参考スコア(独自算出の注目度): 29.797379277423143
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Question Answering (QA) tasks requiring information from multiple documents
often rely on a retrieval model to identify relevant information from which the
reasoning model can derive an answer. The retrieval model is typically trained
to maximize the likelihood of the labeled supporting evidence. However, when
retrieving from large text corpora such as Wikipedia, the correct answer can
often be obtained from multiple evidence candidates, not all of them labeled as
positive, thus rendering the training signal weak and noisy. The problem is
exacerbated when the questions are unanswerable or the answers are boolean,
since the models cannot rely on lexical overlap to map answers to supporting
evidences. We develop a new parameterization of set-valued retrieval that
properly handles unanswerable queries, and we show that marginalizing over this
set during training allows a model to mitigate false negatives in annotated
supporting evidences. We test our method with two multi-document QA datasets,
IIRC and HotpotQA. On IIRC, we show that joint modeling with marginalization on
alternative contexts improves model performance by 5.5 F1 points and achieves a
new state-of-the-art performance of 50.6 F1. We also show that marginalization
results in 0.9 to 1.6 QA F1 improvement on HotpotQA in various settings.
- Abstract(参考訳): 複数の文書から情報を必要とする質問応答(qa)タスクは、推論モデルが回答を導出できる関連情報を特定するために、検索モデルに依存することが多い。
検索モデルは一般にラベル付き支持証拠の可能性を最大化するために訓練される。
しかし、ウィキペディアのような大きなテキストコーパスから検索すると、正しい答えは複数の証拠候補から得られることが多く、これら全てが肯定的なものではないため、訓練信号は弱くうるさい。
モデルは答えを裏付ける証拠にマッピングするために語彙の重なりに依存することができないため、質問が解くことができない場合、問題は悪化する。
そこで本研究では, 解答のない問合せを適切に処理する集合値検索の新しいパラメータ化手法を開発し, 学習中にこの集合を辺縁化することで, アノテートされた支持証拠の偽陰性を軽減できることを示す。
提案手法を,IIRCとHotpotQAの2つのマルチドキュメントQAデータセットを用いて検証した。
IIRCでは,代替文脈の余分化による連成モデリングによりモデル性能が5.5F1ポイント向上し,50.6F1の新たな最先端性能が得られることを示す。
また,HotpotQAを0.9~1.6QA F1に改善した。
関連論文リスト
- NewsQs: Multi-Source Question Generation for the Inquiring Mind [59.79288644158271]
我々は複数のニュース文書に対して質問応答ペアを提供するデータセットであるNewsQsを紹介する。
FAQスタイルのニュース記事に微調整されたT5-Largeモデルによって自動生成される質問を,従来のマルチドキュメント要約データセットに拡張する。
論文 参考訳(メタデータ) (2024-02-28T16:59:35Z) - A Lightweight Method to Generate Unanswerable Questions in English [18.323248259867356]
本稿では,英語における疑問生成のための簡易なデータ拡張手法について検討する。
回答可能な質問に対して、Antonymとエンティティスワップを実行します。
従来の最先端技術と比較すると、トレーニング不要で軽量な戦略で生成されたデータにより、より良いモデルが得られます。
論文 参考訳(メタデータ) (2023-10-30T10:14:52Z) - Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering [26.34649731975005]
Retriever-augmented instruction-following modelは、質問応答のための微調整アプローチ(QA)の魅力的な代替品である
モデル応答は自然で流動的である傾向にあるが、追加の冗長性により、モデルパフォーマンスを正確に定量化するために従来のQA評価指標は信頼できない。
1) ユーザの情報要求(正確性)をどの程度満足させるか,2) 提供された知識(忠実性)に基づいて応答を生成するか,という2つの次元に沿って,これらのモデルを評価するために,自動評価と人的評価の両方を用いる。
論文 参考訳(メタデータ) (2023-07-31T17:41:00Z) - Answering Ambiguous Questions via Iterative Prompting [84.3426020642704]
オープンドメインの質問応答では、質問のあいまいさのため、複数の妥当な回答が存在する可能性がある。
ひとつのアプローチは、すべての有効な回答を直接予測することですが、これは、妥当性と多様性のバランスに苦労する可能性があります。
本稿では,あいまいな疑問に答える既存手法の欠陥に対処するため,AmbigPromptを提案する。
論文 参考訳(メタデータ) (2023-07-08T04:32:17Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - FEQA: A Question Answering Evaluation Framework for Faithfulness
Assessment in Abstractive Summarization [34.2456005415483]
我々は,その資料から生成した要約の忠実さを評価する問題に取り組む。
現在のモデルでは、抽象性と忠実性のトレードオフが示されています。
本稿では,信頼度を基準とした質問応答(QA)尺度を提案する。
論文 参考訳(メタデータ) (2020-05-07T21:00:08Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z) - Probabilistic Assumptions Matter: Improved Models for
Distantly-Supervised Document-Level Question Answering [35.55031325165487]
本稿では,文書レベルの遠隔スーパービジョンを用いた抽出質問応答の問題に対処する。
これらの仮定が相互作用し、異なる構成が相補的な利点をもたらすことを示す。
本稿では,TriviaQA-WikiのF1の4.3ポイント,NarrativeQA要約のRue-Lの1.7ポイントを比較検討した。
論文 参考訳(メタデータ) (2020-05-05T01:08:36Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。