論文の概要: Is Multihop QA in DiRe Condition? Measuring and Reducing Disconnected
Reasoning
- arxiv url: http://arxiv.org/abs/2005.00789v3
- Date: Tue, 17 Nov 2020 04:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 11:30:44.495848
- Title: Is Multihop QA in DiRe Condition? Measuring and Reducing Disconnected
Reasoning
- Title(参考訳): マルチホップQAはダイレ条件か?
切り離された推論の測定と削減
- Authors: Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, Ashish Sabharwal
- Abstract要約: モデルは、しばしば、複数のサポート事実をまたいで情報を接続することなく、正しい回答を生成するためにデータセットアーティファクトを利用する。
我々は、支持事実のサブセットにまたがる不連結推論のような望ましくない振る舞いを定式化する。
実験によると、読書理解設定においてマルチホップQAがあまり進歩していないことが示唆されている。
- 参考スコア(独自算出の注目度): 50.114651561111245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Has there been real progress in multi-hop question-answering? Models often
exploit dataset artifacts to produce correct answers, without connecting
information across multiple supporting facts. This limits our ability to
measure true progress and defeats the purpose of building multi-hop QA
datasets. We make three contributions towards addressing this. First, we
formalize such undesirable behavior as disconnected reasoning across subsets of
supporting facts. This allows developing a model-agnostic probe for measuring
how much any model can cheat via disconnected reasoning. Second, using a notion
of \emph{contrastive support sufficiency}, we introduce an automatic
transformation of existing datasets that reduces the amount of disconnected
reasoning. Third, our experiments suggest that there hasn't been much progress
in multi-hop QA in the reading comprehension setting. For a recent large-scale
model (XLNet), we show that only 18 points out of its answer F1 score of 72 on
HotpotQA are obtained through multifact reasoning, roughly the same as that of
a simpler RNN baseline. Our transformation substantially reduces disconnected
reasoning (19 points in answer F1). It is complementary to adversarial
approaches, yielding further reductions in conjunction.
- Abstract(参考訳): マルチホップ質問応答の本当の進歩は?
モデルは、しばしばデータセットの成果物を利用して正しい回答を生成する。
これにより、真の進捗を測定する能力が制限され、マルチホップのQAデータセットを構築する目的が失われます。
これに対処するために3つの貢献をします。
まず、支援事実のサブセットにまたがる不連結推論のような望ましくない振る舞いを定式化する。
これにより、接続不能な推論によって、どんなモデルでもどの程度の不正を計測できるモデルに依存しないプローブの開発が可能になる。
第二に、emph{contrastive support sufficiency}の概念を用いて、既存のデータセットの自動変換を導入し、断続的な推論の量を削減する。
第3に,本実験では,読解環境におけるマルチホップQAがあまり進展していないことが示唆された。
最近の大規模モデル (XLNet) において、HotpotQAにおけるF1スコア72のうち18点のみが、より単純なRNNベースラインとほぼ同等の乗法により得られることを示す。
我々の変換は、非連結な推論を著しく減少させる(答え F1 の19点)。
敵対的なアプローチを補完するものであり、同時にさらなる削減をもたらす。
関連論文リスト
- MoreHopQA: More Than Multi-hop Reasoning [32.94332511203639]
提案するマルチホップデータセットであるMoreHopQAは,抽出結果から生成結果へシフトする。
我々のデータセットは,HotpotQA,2WikiMultihopQA,MuSiQueの3つの既存のマルチホップデータセットを利用して作成されている。
この結果から,初期のマルチホップ質問ではモデルの性能は良好であったが,拡張された質問では困難であった。
論文 参考訳(メタデータ) (2024-06-19T09:38:59Z) - Counterfactual Multihop QA: A Cause-Effect Approach for Reducing
Disconnected Reasoning [5.343815893782489]
マルチホップQAでは、質問に答えるために複数のサポート事実を推論する必要がある。
本稿では, 因果効果を低減し, 因果効果を低減できる新しいマルチホップQAを提案する。
本手法は,真のマルチホップ推論により,HotpotQA上でのSupp$_s$スコアの5.8%高得点を達成する。
論文 参考訳(メタデータ) (2022-10-13T16:21:53Z) - Understanding and Improving Zero-shot Multi-hop Reasoning in Generative
Question Answering [85.79940770146557]
マルチホップ質問を複数の単一ホップ質問に分解する。
これらの対の見かけ上同一の問合せ連鎖について、QAモデルの答えに顕著な矛盾が認められる。
シングルホップの質問だけを訓練すると、モデルはマルチホップの質問に対してあまり一般化しない。
論文 参考訳(メタデータ) (2022-10-09T11:48:07Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Modeling Multi-hop Question Answering as Single Sequence Prediction [88.72621430714985]
本稿では,単純な生成手法(PathFid)を提案する。
PathFidは、マルチホップ質問に対する回答を解決するための推論プロセスを明示的にモデル化する。
実験の結果,PathFidは2つのマルチホップQAデータセットに対して高い性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-05-18T21:57:59Z) - Reasoning Chain Based Adversarial Attack for Multi-hop Question
Answering [0.0]
以前の敵攻撃は通常、質問文全体を編集する。
マルチホップ推論チェーンに基づく逆攻撃手法を提案する。
その結果,回答と事実予測の双方において,大幅な性能低下が認められた。
論文 参考訳(メタデータ) (2021-12-17T18:03:14Z) - Mitigating False-Negative Contexts in Multi-document QuestionAnswering
with Retrieval Marginalization [29.797379277423143]
応答不能なクエリを適切に処理するset-valued検索の新しいパラメータ化を開発している。
トレーニング中にこの集合を限界化することで、モデルが注釈付き支持証拠の偽陰性を緩和できることを示す。
IIRCでは,代替文脈の余分化による連成モデリングによりモデル性能が5.5F1ポイント向上し,50.6F1の新たな最先端性能が得られることを示す。
論文 参考訳(メタデータ) (2021-03-22T23:44:35Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。