論文の概要: MoreHopQA: More Than Multi-hop Reasoning
- arxiv url: http://arxiv.org/abs/2406.13397v1
- Date: Wed, 19 Jun 2024 09:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 20:12:53.196086
- Title: MoreHopQA: More Than Multi-hop Reasoning
- Title(参考訳): MoreHopQA:マルチホップ推論以上のもの
- Authors: Julian Schnitzler, Xanh Ho, Jiahao Huang, Florian Boudin, Saku Sugawara, Akiko Aizawa,
- Abstract要約: 提案するマルチホップデータセットであるMoreHopQAは,抽出結果から生成結果へシフトする。
我々のデータセットは,HotpotQA,2WikiMultihopQA,MuSiQueの3つの既存のマルチホップデータセットを利用して作成されている。
この結果から,初期のマルチホップ質問ではモデルの性能は良好であったが,拡張された質問では困難であった。
- 参考スコア(独自算出の注目度): 32.94332511203639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing multi-hop datasets are extractive answer datasets, where the answers to the questions can be extracted directly from the provided context. This often leads models to use heuristics or shortcuts instead of performing true multi-hop reasoning. In this paper, we propose a new multi-hop dataset, MoreHopQA, which shifts from extractive to generative answers. Our dataset is created by utilizing three existing multi-hop datasets: HotpotQA, 2WikiMultihopQA, and MuSiQue. Instead of relying solely on factual reasoning, we enhance the existing multi-hop questions by adding another layer of questioning that involves one, two, or all three of the following types of reasoning: commonsense, arithmetic, and symbolic. Our dataset is created through a semi-automated process, resulting in a dataset with 1,118 samples that have undergone human verification. We then use our dataset to evaluate five different large language models: Mistral 7B, Gemma 7B, Llama 3 (8B and 70B), and GPT-4. We also design various cases to analyze the reasoning steps in the question-answering process. Our results show that models perform well on initial multi-hop questions but struggle with our extended questions, indicating that our dataset is more challenging than previous ones. Our analysis of question decomposition reveals that although models can correctly answer questions, only a portion - 38.7% for GPT-4 and 33.4% for Llama3-70B - achieve perfect reasoning, where all corresponding sub-questions are answered correctly. Evaluation code and data are available at https://github.com/Alab-NII/morehopqa
- Abstract(参考訳): 既存のマルチホップデータセットの多くは、提供されたコンテキストから直接質問に対する回答を抽出できる、抽出された回答データセットである。
これはしばしばモデルが真のマルチホップ推論を行う代わりにヒューリスティックやショートカットを使用するように導く。
本稿では,抽出から生成への変換を行うマルチホップデータセットであるMoreHopQAを提案する。
我々のデータセットは,HotpotQA,2WikiMultihopQA,MuSiQueの3つの既存のマルチホップデータセットを利用して作成されている。
事実推論のみに頼るのではなく、コモンセンス、算術、記号の3つのタイプの推論のうち1つ、2つ、または全てを含む別の階層の質問を追加することで、既存のマルチホップ質問を強化する。
我々のデータセットは半自動で作成され、1,118個のサンプルからなるデータセットが人間の検証を受けている。
次に、我々のデータセットを用いて、Mistral 7B、Gemma 7B、Llama 3 (8B、70B)、GPT-4の5つの異なる大言語モデルを評価する。
また,質問応答過程における推論ステップを分析するために,様々な事例を設計する。
以上の結果から,初期のマルチホップ質問ではモデルの性能は良好であったが,拡張された質問には対処できず,データセットが従来のモデルよりも困難であることが示唆された。
Llama3-70B では GPT-4 では 38.7% 、Llama3-70B では 33.4% の正解率しか得られていない。
評価コードとデータはhttps://github.com/Alab-NII/morehopqaで公開されている。
関連論文リスト
- FanOutQA: A Multi-Hop, Multi-Document Question Answering Benchmark for Large Language Models [37.34801677290571]
FanOutQA(ファンアウトQA)は、ウィキペディアによる高品質な質問応答ペアと人間による注釈付き分解のデータセットである。
GPT-4、LLaMA 2、Claude-2.1、Mixtral-8x7Bを含む、データセットとベンチマーク7 LLMの3つのベンチマーク設定を定式化します。
論文 参考訳(メタデータ) (2024-02-21T20:30:45Z) - How Well Do Multi-hop Reading Comprehension Models Understand Date
Information? [31.243088887839257]
比較問題に対する解答を見つける際に、複数のホップモデルがステップバイステップの推論を行う能力は、まだ不明である。
また、内部推論プロセスに関する質問が、質問応答システム(QA)のトレーニングや評価にどのように役立つかは、不明である。
論文 参考訳(メタデータ) (2022-10-11T07:24:07Z) - Understanding and Improving Zero-shot Multi-hop Reasoning in Generative
Question Answering [85.79940770146557]
マルチホップ質問を複数の単一ホップ質問に分解する。
これらの対の見かけ上同一の問合せ連鎖について、QAモデルの答えに顕著な矛盾が認められる。
シングルホップの質問だけを訓練すると、モデルはマルチホップの質問に対してあまり一般化しない。
論文 参考訳(メタデータ) (2022-10-09T11:48:07Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - Modeling Multi-hop Question Answering as Single Sequence Prediction [88.72621430714985]
本稿では,単純な生成手法(PathFid)を提案する。
PathFidは、マルチホップ質問に対する回答を解決するための推論プロセスを明示的にモデル化する。
実験の結果,PathFidは2つのマルチホップQAデータセットに対して高い性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-05-18T21:57:59Z) - MuSiQue: Multi-hop Questions via Single-hop Question Composition [36.84063888323547]
マルチホップ質問を単一ホップ質問の合成として構築することにより,結果のマルチホップ質問の品質をよりよく制御することができる。
このプロセスを使用して、新しいマルチホップQAデータセットを構築する。 MuSiQue-Ans with 25K 2-4 ホップ質問。
論文 参考訳(メタデータ) (2021-08-02T00:33:27Z) - Question-Aware Memory Network for Multi-hop Question Answering in
Human-Robot Interaction [5.49601869466872]
QA2MNと呼ばれるマルチホップ質問応答のための質問認識メモリネットワークを提案し、推論プロセスにおける質問に対する注意をタイムリーに更新する。
我々は、複雑なマルチホップ質問応答のための2つの代表的なデータセットであるpathquestionとworldcup2014のqa2mnを評価した。
論文 参考訳(メタデータ) (2021-04-27T13:32:41Z) - Constructing A Multi-hop QA Dataset for Comprehensive Evaluation of
Reasoning Steps [31.472490306390977]
マルチホップ質問応答データセットは、モデルが与えられた質問に答えるために複数の段落を読むことを要求することにより、推論と推論のスキルをテストすることを目的としている。
これまでの研究では、既存のマルチホップデータセットの多くの例は、質問に答えるためにマルチホップ推論を必要としないことが判明した。
構造化データと非構造化データを利用する2WikiMultiHopQAと呼ばれる新しいマルチホップQAデータセットを提案する。
論文 参考訳(メタデータ) (2020-11-02T15:42:40Z) - Unsupervised Multi-hop Question Answering by Question Generation [108.61653629883753]
MQA-QGは、人間のようなマルチホップトレーニングデータを生成する、教師なしのフレームワークである。
生成された学習データのみを用いて、教師付き学習性能の61%と83%を達成できる有能なマルチホップQAを訓練することができる。
論文 参考訳(メタデータ) (2020-10-23T19:13:47Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z) - Is Multihop QA in DiRe Condition? Measuring and Reducing Disconnected
Reasoning [50.114651561111245]
モデルは、しばしば、複数のサポート事実をまたいで情報を接続することなく、正しい回答を生成するためにデータセットアーティファクトを利用する。
我々は、支持事実のサブセットにまたがる不連結推論のような望ましくない振る舞いを定式化する。
実験によると、読書理解設定においてマルチホップQAがあまり進歩していないことが示唆されている。
論文 参考訳(メタデータ) (2020-05-02T11:01:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。