論文の概要: How Well Do Multi-hop Reading Comprehension Models Understand Date
Information?
- arxiv url: http://arxiv.org/abs/2210.05208v1
- Date: Tue, 11 Oct 2022 07:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 15:36:17.594643
- Title: How Well Do Multi-hop Reading Comprehension Models Understand Date
Information?
- Title(参考訳): マルチホップ読解モデルは日付情報をどの程度理解しているか?
- Authors: Xanh Ho, Saku Sugawara, and Akiko Aizawa
- Abstract要約: 比較問題に対する解答を見つける際に、複数のホップモデルがステップバイステップの推論を行う能力は、まだ不明である。
また、内部推論プロセスに関する質問が、質問応答システム(QA)のトレーニングや評価にどのように役立つかは、不明である。
- 参考スコア(独自算出の注目度): 31.243088887839257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several multi-hop reading comprehension datasets have been proposed to
resolve the issue of reasoning shortcuts by which questions can be answered
without performing multi-hop reasoning. However, the ability of multi-hop
models to perform step-by-step reasoning when finding an answer to a comparison
question remains unclear. It is also unclear how questions about the internal
reasoning process are useful for training and evaluating question-answering
(QA) systems. To evaluate the model precisely in a hierarchical manner, we
first propose a dataset, \textit{HieraDate}, with three probing tasks in
addition to the main question: extraction, reasoning, and robustness. Our
dataset is created by enhancing two previous multi-hop datasets, HotpotQA and
2WikiMultiHopQA, focusing on multi-hop questions on date information that
involve both comparison and numerical reasoning. We then evaluate the ability
of existing models to understand date information. Our experimental results
reveal that the multi-hop models do not have the ability to subtract two dates
even when they perform well in date comparison and number subtraction tasks.
Other results reveal that our probing questions can help to improve the
performance of the models (e.g., by +10.3 F1) on the main QA task and our
dataset can be used for data augmentation to improve the robustness of the
models.
- Abstract(参考訳): マルチホップ推論を行なわずに回答可能な推論ショートカットの問題を解決するために,複数のマルチホップ読解データセットが提案されている。
しかしながら、比較質問に対する回答を見つける際にステップバイステップの推論を行うマルチホップモデルの能力は、まだ不明である。
また、内部推論プロセスに関する質問が、質問応答システム(QA)のトレーニングや評価にどのように役立つかは明らかでない。
モデルを階層的に正確に評価するために,まず,抽出,推論,ロバスト性という主課題に加えて,3つの探索タスクを含むデータセット \textit{hieradate} を提案する。
我々のデータセットは、2つの過去のマルチホップデータセットであるHotpotQAと2WikiMultiHopQAを拡張して作成され、比較と数値推論の両方を含む日付情報に関するマルチホップ質問に焦点を当てている。
そして、既存のモデルが日付情報を理解する能力を評価する。
実験結果から, マルチホップモデルでは, 日付比較や数値減算タスクにおいて, 2つの日付を減算できないことがわかった。
他の結果から,本研究の結果から,主QAタスクにおけるモデルの性能向上(例えば+10.3 F1)や,モデルのロバスト性向上のためにデータ拡張にデータセットを使用できることがわかった。
関連論文リスト
- MoreHopQA: More Than Multi-hop Reasoning [32.94332511203639]
提案するマルチホップデータセットであるMoreHopQAは,抽出結果から生成結果へシフトする。
我々のデータセットは,HotpotQA,2WikiMultihopQA,MuSiQueの3つの既存のマルチホップデータセットを利用して作成されている。
この結果から,初期のマルチホップ質問ではモデルの性能は良好であったが,拡張された質問では困難であった。
論文 参考訳(メタデータ) (2024-06-19T09:38:59Z) - FanOutQA: A Multi-Hop, Multi-Document Question Answering Benchmark for Large Language Models [37.34801677290571]
FanOutQA(ファンアウトQA)は、ウィキペディアによる高品質な質問応答ペアと人間による注釈付き分解のデータセットである。
GPT-4、LLaMA 2、Claude-2.1、Mixtral-8x7Bを含む、データセットとベンチマーク7 LLMの3つのベンチマーク設定を定式化します。
論文 参考訳(メタデータ) (2024-02-21T20:30:45Z) - Analyzing the Effectiveness of the Underlying Reasoning Tasks in
Multi-hop Question Answering [28.809665884372183]
2WikiMultiHopQA と HotpotQA の小さなデータセットによる実験結果から,(1) UR タスクによりQA のパフォーマンスが向上することが示された。
(3) URタスクは,サブクエストや逆問題などの逆問題において,モデルの堅牢性向上に寄与しないことがわかった。
論文 参考訳(メタデータ) (2023-02-12T17:32:55Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z) - Understanding and Improving Zero-shot Multi-hop Reasoning in Generative
Question Answering [85.79940770146557]
マルチホップ質問を複数の単一ホップ質問に分解する。
これらの対の見かけ上同一の問合せ連鎖について、QAモデルの答えに顕著な矛盾が認められる。
シングルホップの質問だけを訓練すると、モデルはマルチホップの質問に対してあまり一般化しない。
論文 参考訳(メタデータ) (2022-10-09T11:48:07Z) - Modeling Multi-hop Question Answering as Single Sequence Prediction [88.72621430714985]
本稿では,単純な生成手法(PathFid)を提案する。
PathFidは、マルチホップ質問に対する回答を解決するための推論プロセスを明示的にモデル化する。
実験の結果,PathFidは2つのマルチホップQAデータセットに対して高い性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-05-18T21:57:59Z) - A Dataset for Answering Time-Sensitive Questions [88.95075983560331]
時間とは、我々の物理的世界において重要な次元である。多くの事実が時間に関して進化することができる。
時間次元を考慮し、既存のQAモデルに時間とともに推論する権限を与えることが重要です。
既存のQAデータセットには、時間に敏感な質問がほとんどないため、モデルの時間的推論能力の診断やベンチマークには適さない。
論文 参考訳(メタデータ) (2021-08-13T16:42:25Z) - Question-Aware Memory Network for Multi-hop Question Answering in
Human-Robot Interaction [5.49601869466872]
QA2MNと呼ばれるマルチホップ質問応答のための質問認識メモリネットワークを提案し、推論プロセスにおける質問に対する注意をタイムリーに更新する。
我々は、複雑なマルチホップ質問応答のための2つの代表的なデータセットであるpathquestionとworldcup2014のqa2mnを評価した。
論文 参考訳(メタデータ) (2021-04-27T13:32:41Z) - Generative Context Pair Selection for Multi-hop Question Answering [60.74354009152721]
マルチホップ質問応答のための生成コンテキスト選択モデルを提案する。
提案した生成経路選択モデルは,対向保留集合上でのより良い性能(ベースラインより4.9%高い)を有する。
論文 参考訳(メタデータ) (2021-04-18T07:00:48Z) - Constructing A Multi-hop QA Dataset for Comprehensive Evaluation of
Reasoning Steps [31.472490306390977]
マルチホップ質問応答データセットは、モデルが与えられた質問に答えるために複数の段落を読むことを要求することにより、推論と推論のスキルをテストすることを目的としている。
これまでの研究では、既存のマルチホップデータセットの多くの例は、質問に答えるためにマルチホップ推論を必要としないことが判明した。
構造化データと非構造化データを利用する2WikiMultiHopQAと呼ばれる新しいマルチホップQAデータセットを提案する。
論文 参考訳(メタデータ) (2020-11-02T15:42:40Z) - Unsupervised Multi-hop Question Answering by Question Generation [108.61653629883753]
MQA-QGは、人間のようなマルチホップトレーニングデータを生成する、教師なしのフレームワークである。
生成された学習データのみを用いて、教師付き学習性能の61%と83%を達成できる有能なマルチホップQAを訓練することができる。
論文 参考訳(メタデータ) (2020-10-23T19:13:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。