論文の概要: Desiderata for the Context Use of Question Answering Systems
- arxiv url: http://arxiv.org/abs/2401.18001v2
- Date: Tue, 29 Oct 2024 17:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:37:23.119468
- Title: Desiderata for the Context Use of Question Answering Systems
- Title(参考訳): 質問応答システムのコンテキスト利用のためのデシラタ
- Authors: Sagi Shaier, Lawrence E Hunter, Katharina von der Wense,
- Abstract要約: 先行研究は、最先端のコンテキストベースの質問応答(QA)システムにおいて、一般的な問題の集合を明らかにした。
まず最初に、QAモデルのデシラタ(desiderata)のセットを概説して、このギャップを埋めることを目指しています。
研究の第2部では、すべてのデシラタに基づいて、5つのデータセット上の15のQAシステムを評価する実験を行っている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Prior work has uncovered a set of common problems in state-of-the-art context-based question answering (QA) systems: a lack of attention to the context when the latter conflicts with a model's parametric knowledge, little robustness to noise, and a lack of consistency with their answers. However, most prior work focus on one or two of those problems in isolation, which makes it difficult to see trends across them. We aim to close this gap, by first outlining a set of -- previously discussed as well as novel -- desiderata for QA models. We then survey relevant analysis and methods papers to provide an overview of the state of the field. The second part of our work presents experiments where we evaluate 15 QA systems on 5 datasets according to all desiderata at once. We find many novel trends, including (1) systems that are less susceptible to noise are not necessarily more consistent with their answers when given irrelevant context; (2) most systems that are more susceptible to noise are more likely to correctly answer according to a context that conflicts with their parametric knowledge; and (3) the combination of conflicting knowledge and noise can reduce system performance by up to 96%. As such, our desiderata help increase our understanding of how these models work and reveal potential avenues for improvements.
- Abstract(参考訳): 先行研究は、最先端のコンテキストベースの質問応答(QA)システムにおける一般的な問題、すなわち、後者がモデルのパラメトリック知識と矛盾する場合のコンテキストへの注意の欠如、ノイズに対するロバスト性、そしてその答えとの整合性の欠如などを明らかにした。
しかしながら、以前の作業のほとんどは、これらの問題の1つか2つを分離することに集中しているため、それら間のトレンドを見ることは困難である。
最初は、QAモデルのデシラタ(desiderata)のセットを概説して、このギャップを埋めることを目指しています。
次に、関連する分析と手法を調査し、その分野の状況を概観する。
研究の第2部では、5つのデータセット上の15のQAシステムを一度にすべてのデシラタに従って評価する実験を行っている。
ノイズの影響を受けにくいシステムは,無関係な状況下では必ずしも回答と一致しない,ノイズに敏感なほとんどのシステムは,パラメトリックな知識と矛盾する文脈で正しく答える傾向があり,矛盾する知識とノイズの組み合わせは,システム性能を最大96%低下させる。
そのため、当社のデシラタは、これらのモデルの動作方法の理解を深め、改善のための潜在的な道筋を明らかにするのに役立ちます。
関連論文リスト
- Adaptive Question Answering: Enhancing Language Model Proficiency for Addressing Knowledge Conflicts with Source Citations [3.3018718917393297]
本稿では,複数の有効な回答が存在するあいまいな環境下で,ソースを引用した質問応答のタスクを提案する。
1)新しい5つのデータセット,(2)実世界の自然発生コンテキストを特徴とする最初のあいまいなマルチホップQAデータセット,(3)モデルの性能を評価するための2つの新しい指標からなる包括的フレームワークを構築した。
この新しいタスク、データセット、メトリクス、ベースラインは、コミュニティにQA研究の境界を押し進め、より信頼できる、解釈可能なシステムを開発するよう促すことを期待しています。
論文 参考訳(メタデータ) (2024-10-05T17:37:01Z) - Context Matters: An Empirical Study of the Impact of Contextual Information in Temporal Question Answering Systems [7.393290178125003]
本稿では,様々な文脈で学習した時間的質問応答システムのロバスト性について実験的に検討する。
これらのコンテキストを混合したトレーニングにより、モデルの堅牢性と精度が向上することを示す。
我々は、コンテキストリッチなTQAデータセットであるContextAQAとContextTQEを導入し、堅牢なTQAモデルをトレーニングするための包括的な評価とガイドラインを提供する。
論文 参考訳(メタデータ) (2024-06-27T21:31:30Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - FiTs: Fine-grained Two-stage Training for Knowledge-aware Question
Answering [47.495991137191425]
本稿では, KAQAシステム性能を向上させるための微細な2段階トレーニングフレームワーク (FiT) を提案する。
第1段階は、PLMとKGからの表現の整列を目標とし、それらの間のモダリティギャップを埋めることである。
第2段階はナレッジ・アウェア・ファインチューニングと呼ばれ、モデルの共同推論能力の向上を目的としている。
論文 参考訳(メタデータ) (2023-02-23T06:25:51Z) - Evaluation of Question Answering Systems: Complexity of judging a
natural language [3.4771957347698583]
質問応答システム(QA)は、自然言語処理(NLP)において最も重要かつ急速に発展している研究課題の一つである。
本調査では,QAの枠組み,QAパラダイム,ベンチマークデータセット,およびQAシステムの定量的評価のための評価手法の体系的概要について述べる。
論文 参考訳(メタデータ) (2022-09-10T12:29:04Z) - Better Retrieval May Not Lead to Better Question Answering [59.1892787017522]
システムの性能を改善するための一般的なアプローチは、取得したコンテキストの品質をIRステージから改善することである。
マルチホップ推論を必要とするオープンドメインのQAデータセットであるStrategyQAでは、この一般的なアプローチは驚くほど非効率である。
論文 参考訳(メタデータ) (2022-05-07T16:59:38Z) - Learning with Instance Bundles for Reading Comprehension [61.823444215188296]
質問応答スコアを複数の関連インスタンスで比較する新しい監視手法を提案する。
具体的には、密接に対照的な質問や回答のさまざまな近所でこれらのスコアを正規化します。
2つのデータセット上のインスタンスバンドルによるトレーニングの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2021-04-18T06:17:54Z) - NoiseQA: Challenge Set Evaluation for User-Centric Question Answering [68.67783808426292]
応答エンジンに先立つパイプライン内のコンポーネントが,多種多様なエラーの原因を発生させることができることを示す。
我々は、QAシステムが効果的にデプロイされる前に、進歩の余地がかなりあると結論付けている。
論文 参考訳(メタデータ) (2021-02-16T18:35:29Z) - Which Linguist Invented the Lightbulb? Presupposition Verification for
Question-Answering [13.50388629020283]
不可解な質問は、検証不能な前置詞の存在に基づいて説明できる。
本稿では,前提生成,前提検証,説明生成という3つのステップに分けた新しい枠組みを提案する。
既存のモデルに前提条件と検証可能性を加えると、下流のパフォーマンスとアンサーバーサビリティ検出が緩やかに向上することがわかった。
論文 参考訳(メタデータ) (2021-01-02T07:26:04Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。