論文の概要: NovelHopQA: Diagnosing Multi-Hop Reasoning Failures in Long Narrative Contexts
- arxiv url: http://arxiv.org/abs/2506.02000v1
- Date: Tue, 20 May 2025 20:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.671984
- Title: NovelHopQA: Diagnosing Multi-Hop Reasoning Failures in Long Narrative Contexts
- Title(参考訳): NovelHopQA: 長いナラティブコンテキストにおけるマルチホップ推論失敗の診断
- Authors: Abhay Gupta, Michael Lu, Kevin Zhu, Sean O'Brien, Vasu Sharma,
- Abstract要約: NovelHopQAは、83の長編小説から64k-128k区切り抜かれた抜粋に対してk1-4ホップQAを評価する最初のベンチマークである。
キーワード誘導パイプラインは、コヒーレントなストーリーラインに接したホップトケンチェーンを構築する。
- 参考スコア(独自算出の注目度): 4.716662397532276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current large language models (LLMs) struggle to answer questions that span tens of thousands of tokens, especially when multi-hop reasoning is involved. While prior benchmarks explore long-context comprehension or multi-hop reasoning in isolation, none jointly vary context length and reasoning depth in natural narrative settings. We introduce NovelHopQA, the first benchmark to evaluate k1-4 hop QA over 64k-128k-token excerpts from 83 full-length public-domain novels. A keyword-guided pipeline builds hop-separated chains grounded in coherent storylines. We evaluate six state-of-the-art (SOTA) models and apply oracle-context filtering to ensure all questions are genuinely answerable. Human annotators validate both alignment and hop depth. We noticed consistent accuracy drops with increased hops and context length, even in frontier models-revealing that sheer scale does not guarantee robust reasoning. Our failure mode analysis highlights common breakdowns, such as missed final-hop integration and long-range drift. NovelHopQA offers a controlled diagnostic setting to stress-test multi-hop reasoning at scale.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)は、特にマルチホップ推論に関わる場合、数万のトークンにまたがる質問に答えるのに苦労しています。
以前のベンチマークでは、長いコンテキストの理解や複数のホップの推論を分離して調べていたが、自然の物語設定ではコンテキストの長さや推論の深さが相違することはなかった。
83編のパブリックドメイン小説から64k-128kの抜粋を抜粋し,k1-4ホップQAを評価する最初のベンチマークであるNovellHopQAを紹介する。
キーワード誘導パイプラインは、コヒーレントなストーリーラインに接するホップ分離されたチェーンを構築する。
我々は6つの最先端(SOTA)モデルを評価し、全ての質問が真に答えられるようにオラクル・コンテキスト・フィルタリングを適用した。
人間のアノテーションは、アライメントとホップ深さの両方を検証する。
我々は,フロンティアモデルにおいても,ホップやコンテキスト長の増加に伴う一貫した精度低下に気付きました。
私たちのフェールモード分析では、ファイナルホップ統合の欠如や長距離ドリフトといった、一般的なブレークダウンが強調されています。
NovelHopQAは、大規模なマルチホップ推論をストレステストするための制御された診断設定を提供する。
関連論文リスト
- Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation [56.69064935192318]
MHQA(Multi-hop Question Answering)は、質問に答えるために複雑なレイヤを追加し、より難しいものにします。
本稿では,様々な構成で検索結果(検索文書)を置換することで,言語モデルがマルチホップ質問にどう反応するかを考察する。
論文 参考訳(メタデータ) (2025-05-16T23:29:47Z) - SCoRE: Benchmarking Long-Chain Reasoning in Commonsense Scenarios [33.72114830484246]
SCoRE(Scenario-based Commonsense Reasoning Evaluation)は、エンティティ、リレーション、論理ルールのシナリオスキーマからマルチホップ質問を合成するベンチマークである。
SCoREには100kのバイリンガル(中国語と英語の)複数選択質問が含まれており、推論チェーンは2-11ホップにまたがり、様々な難易度にグループ化されている。
論文 参考訳(メタデータ) (2025-03-08T13:40:10Z) - Understanding and Improving Zero-shot Multi-hop Reasoning in Generative
Question Answering [85.79940770146557]
マルチホップ質問を複数の単一ホップ質問に分解する。
これらの対の見かけ上同一の問合せ連鎖について、QAモデルの答えに顕著な矛盾が認められる。
シングルホップの質問だけを訓練すると、モデルはマルチホップの質問に対してあまり一般化しない。
論文 参考訳(メタデータ) (2022-10-09T11:48:07Z) - Locate Then Ask: Interpretable Stepwise Reasoning for Multi-hop Question
Answering [71.49131159045811]
マルチホップ推論では、複雑な質問に答えるために複数の文書を集約する必要がある。
既存の方法は通常、マルチホップの質問を単純なシングルホップの質問に分解する。
そこで本研究では,単一ホップ支援文識別と単一ホップ質問生成の両方を組み込む,解釈可能な段階的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-22T13:24:25Z) - Teaching Broad Reasoning Skills via Decomposition-Guided Contexts [50.114651561111245]
質問に答えるデータセットには、幅広い推論スキルが必要です。
質問分解を用いて、これらの幅広い推論スキルを堅牢な方法で教える方法について説明する。
論文 参考訳(メタデータ) (2022-05-25T05:13:21Z) - Modeling Multi-hop Question Answering as Single Sequence Prediction [88.72621430714985]
本稿では,単純な生成手法(PathFid)を提案する。
PathFidは、マルチホップ質問に対する回答を解決するための推論プロセスを明示的にモデル化する。
実験の結果,PathFidは2つのマルチホップQAデータセットに対して高い性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-05-18T21:57:59Z) - Reasoning Chain Based Adversarial Attack for Multi-hop Question
Answering [0.0]
以前の敵攻撃は通常、質問文全体を編集する。
マルチホップ推論チェーンに基づく逆攻撃手法を提案する。
その結果,回答と事実予測の双方において,大幅な性能低下が認められた。
論文 参考訳(メタデータ) (2021-12-17T18:03:14Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。