論文の概要: Analyzing the Effectiveness of the Underlying Reasoning Tasks in
Multi-hop Question Answering
- arxiv url: http://arxiv.org/abs/2302.05963v1
- Date: Sun, 12 Feb 2023 17:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 17:40:14.954458
- Title: Analyzing the Effectiveness of the Underlying Reasoning Tasks in
Multi-hop Question Answering
- Title(参考訳): マルチホップ質問応答における推論課題の有効性の分析
- Authors: Xanh Ho, Anh-Khoa Duong Nguyen, Saku Sugawara, and Akiko Aizawa
- Abstract要約: 2WikiMultiHopQA と HotpotQA の小さなデータセットによる実験結果から,(1) UR タスクによりQA のパフォーマンスが向上することが示された。
(3) URタスクは,サブクエストや逆問題などの逆問題において,モデルの堅牢性向上に寄与しないことがわかった。
- 参考スコア(独自算出の注目度): 28.809665884372183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To explain the predicted answers and evaluate the reasoning abilities of
models, several studies have utilized underlying reasoning (UR) tasks in
multi-hop question answering (QA) datasets. However, it remains an open
question as to how effective UR tasks are for the QA task when training models
on both tasks in an end-to-end manner. In this study, we address this question
by analyzing the effectiveness of UR tasks (including both sentence-level and
entity-level tasks) in three aspects: (1) QA performance, (2) reasoning
shortcuts, and (3) robustness. While the previous models have not been
explicitly trained on an entity-level reasoning prediction task, we build a
multi-task model that performs three tasks together: sentence-level supporting
facts prediction, entity-level reasoning prediction, and answer prediction.
Experimental results on 2WikiMultiHopQA and HotpotQA-small datasets reveal that
(1) UR tasks can improve QA performance. Using four debiased datasets that are
newly created, we demonstrate that (2) UR tasks are helpful in preventing
reasoning shortcuts in the multi-hop QA task. However, we find that (3) UR
tasks do not contribute to improving the robustness of the model on adversarial
questions, such as sub-questions and inverted questions. We encourage future
studies to investigate the effectiveness of entity-level reasoning in the form
of natural language questions (e.g., sub-question forms).
- Abstract(参考訳): 予測された回答を説明し、モデルの推論能力を評価するために、複数の研究がマルチホップ質問応答(QA)データセットの基盤となる推論(UR)タスクを活用している。
しかし、両タスクのモデルをエンドツーエンドでトレーニングする場合、urタスクがQAタスクにどの程度有効であるかについては、未解決の疑問が残る。
本研究では,(1)QA性能,(2)推論ショートカット,(3)ロバストネスの3つの側面において,URタスク(文レベルと実体レベルの両方を含む)の有効性を分析することで,この問題に対処する。
前のモデルはエンティティレベルの推論予測タスクで明示的に訓練されていないが、文レベルのサポートファクト予測、エンティティレベルの推論予測、応答予測という3つのタスクを同時に実行するマルチタスクモデルを構築している。
2WikiMultiHopQA と HotpotQA の小さなデータセットによる実験結果から,(1) UR タスクによりQA のパフォーマンスが向上することが示された。
新たに作成された4つのデバイアス付きデータセットを用いて、(2)URタスクがマルチホップQAタスクの推論ショートカットを防ぐのに役立つことを示した。
しかし,(3) URタスクは,サブクエストや逆問題などの逆問題において,モデルの堅牢性向上に寄与しないことがわかった。
我々は,自然言語質問(サブクエストフォームなど)の形で,エンティティレベルの推論の有効性を検討するために,今後の研究を奨励する。
関連論文リスト
- Syn-QA2: Evaluating False Assumptions in Long-tail Questions with Synthetic QA Datasets [7.52684798377727]
合成された質問応答(QA)データセットの集合であるSyn-(QA)$2$を紹介する。
先行研究の結果を反映して,QAにおける誤った仮定は困難であることが判明した。
検出タスクは、自然発生の質問よりも長い尾の質問の方が難しい。
論文 参考訳(メタデータ) (2024-03-18T18:01:26Z) - Active Instruction Tuning: Improving Cross-Task Generalization by
Training on Prompt Sensitive Tasks [101.40633115037983]
インストラクションチューニング(IT)は,大規模言語モデル(LLM)を命令付き多種多様なタスクで訓練することにより,印象的なゼロショット一般化を実現する。
ITモデルの性能と一般化性を改善するために、新しいタスクをどのように選択するかは、未解決の問題である。
本稿では,情報的タスクを識別する新しいフレームワークである即時不確実性に基づくアクティブな指導チューニングを提案し,選択したタスク上でモデルをアクティブにチューニングする。
論文 参考訳(メタデータ) (2023-11-01T04:40:05Z) - Gotta: Generative Few-shot Question Answering by Prompt-based Cloze Data
Augmentation [18.531941086922256]
QA (Few-shot Question answering) は、コンテキストパスから一連の質問に対する回答を正確に発見することを目的としている。
我々は,ジェネレーティブPROmpTベースのdaTa拡張フレームワークであるGottaを開発した。
人間の推論プロセスにインスパイアされた我々は、クローズタスクを統合して、数発のQA学習を強化することを提案する。
論文 参考訳(メタデータ) (2023-06-07T01:44:43Z) - Object-Centric Multi-Task Learning for Human Instances [8.035105819936808]
オブジェクト中心学習によって複数のタスクのパラメータを最大に共有する,コンパクトなマルチタスクネットワークアーキテクチャについて検討する。
我々は、人中心クエリ(HCQ)と呼ばれる、人間のインスタンス情報を効果的に符号化する新しいクエリ設計を提案する。
実験結果から,提案したマルチタスクネットワークは,最先端タスク固有モデルに匹敵する精度を実現することがわかった。
論文 参考訳(メタデータ) (2023-03-13T01:10:50Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - How Well Do Multi-hop Reading Comprehension Models Understand Date
Information? [31.243088887839257]
比較問題に対する解答を見つける際に、複数のホップモデルがステップバイステップの推論を行う能力は、まだ不明である。
また、内部推論プロセスに関する質問が、質問応答システム(QA)のトレーニングや評価にどのように役立つかは、不明である。
論文 参考訳(メタデータ) (2022-10-11T07:24:07Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - Dealing with Missing Modalities in the Visual Question Answer-Difference
Prediction Task through Knowledge Distillation [75.1682163844354]
我々は,視覚的質問応答拡散予測タスクから生じる欠落モダリティの問題に対処する。
本稿では,イメージ/質問/回答トリプレットを入力として,ベースラインを上回る「大きな」教師モデルを紹介する。
論文 参考訳(メタデータ) (2021-04-13T06:41:11Z) - Understanding Unnatural Questions Improves Reasoning over Text [54.235828149899625]
生テキストに対する複雑な質問応答(CQA)は難しい課題である。
効果的なCQAモデルを学ぶには、大量の人間が注釈付けしたデータが必要である。
我々は、自然の人間生成の質問を非自然の機械生成の質問に投影することで、高品質なプログラマ(パーザ)を学ぶという課題に対処する。
論文 参考訳(メタデータ) (2020-10-19T10:22:16Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z) - Reinforced Multi-task Approach for Multi-hop Question Generation [47.15108724294234]
我々は,その文脈における支援事実に基づいて,関連する質問を生成することを目的としたマルチホップ質問生成を取り上げている。
我々は,質問生成を導くために,回答認識支援事実予測の補助タスクを備えたマルチタスク学習を採用する。
マルチホップ質問応答データセットHotPotQAの実験を通して,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-04-05T10:16:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。