論文の概要: Failure Modes in Multi-Hop QA: The Weakest Link Law and the Recognition Bottleneck
- arxiv url: http://arxiv.org/abs/2601.12499v1
- Date: Sun, 18 Jan 2026 17:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.652798
- Title: Failure Modes in Multi-Hop QA: The Weakest Link Law and the Recognition Bottleneck
- Title(参考訳): マルチホップQAにおけるフェールモード:ウェイクストリンク法と認識ボットネック
- Authors: Meiru Zhang, Zaiqiao Meng, Nigel Collier,
- Abstract要約: 本稿では,MFAI(Multi-Focus Attention Instruction)を導入した。
システム2推論を利用して、必要な情報を効果的に見つけ、統合する「思考」モデルを実証する。
- 参考スコア(独自算出の注目度): 38.430205063059724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite scaling to massive context windows, Large Language Models (LLMs) struggle with multi-hop reasoning due to inherent position bias, which causes them to overlook information at certain positions. Whether these failures stem from an inability to locate evidence (recognition failure) or integrate it (synthesis failure) is unclear. We introduce Multi-Focus Attention Instruction (MFAI), a semantic probe to disentangle these mechanisms by explicitly steering attention towards selected positions. Across 5 LLMs on two multi-hop QA tasks (MuSiQue and NeoQA), we establish the "Weakest Link Law": multi-hop reasoning performance collapses to the performance level of the least visible evidence. Crucially, this failure is governed by absolute position rather than the linear distance between facts (performance variance $<3%$). We further identify a duality in attention steering: while matched MFAI resolves recognition bottlenecks, improving accuracy by up to 11.5% in low-visibility positions, misleading MFAI triggers confusion in real-world tasks but is successfully filtered in synthetic tasks. Finally, we demonstrate that "thinking" models that utilize System-2 reasoning, effectively locate and integrate the required information, matching gold-only baselines even in noisy, long-context settings.
- Abstract(参考訳): 大規模なコンテキストウインドウへのスケーリングにもかかわらず、LLM(Large Language Models)は、固有の位置バイアスによるマルチホップ推論に苦慮しているため、特定の位置で情報を見落としてしまう。
これらの障害が証拠(認識障害)を見つけることができないことや、それを統合できないこと(合成失敗)に起因するかどうかは不明である。
MFAI(Multi-Focus Attention Instruction)は、選択した位置に対して明示的に注意を向けることで、これらのメカニズムを阻害するセマンティックプローブである。
2つのマルチホップQAタスク(MuSiQueとNeoQA)上の5つのLLMにわたって、マルチホップ推論性能が最小視認できる証拠のレベルに崩壊するという「ウェイクストリンク法」を確立した。
重要なことに、この失敗は事実間の線形距離(性能分散$<3%$)ではなく、絶対的な位置によって管理される。
一致したMFAIは認識ボトルネックを解消し、低視認性位置の精度を最大11.5%向上する一方、MFAIの誤解を招くことで現実世界のタスクは混乱するが、合成タスクではうまくフィルタリングされる。
最後に,システム2推論を利用して,必要な情報を効果的に特定・統合する「思考」モデルを,ノイズの多い長文設定でもゴールドオンリーのベースラインに適合させることを実証する。
関連論文リスト
- Hallucination Detection via Internal States and Structured Reasoning Consistency in Large Language Models [7.18947815679122]
内部状態探索と整合検証は、大きな言語モデルにおける幻覚を検出するために用いられる。
両手法のギャップを埋める統一的なフレームワークを開発する。
私たちのフレームワークは一貫して、強力なベースラインをはるかに上回ります。
論文 参考訳(メタデータ) (2025-10-13T15:31:21Z) - Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - AURA: A Fine-Grained Benchmark and Decomposed Metric for Audio-Visual Reasoning [3.949628618389608]
AURAは、Audio-Visual Large Language Models (AV-LLMs) とOmni-Modal Language Models (OLMs) のクロスモーダル推論能力を評価するためのベンチマークである。
AURAには、因果性、音色とピッチ、テンポとAV同期、未解決性、暗黙の気遣い、スキルプロファイリングといった6つの困難な認知領域に関する質問が含まれている。
本稿では,理性評価のための頑健なツールの欠如に対処する新しい計量AuraScoreを提案する。
論文 参考訳(メタデータ) (2025-08-10T20:06:42Z) - Masking in Multi-hop QA: An Analysis of How Language Models Perform with Context Permutation [56.69064935192318]
MHQA(Multi-hop Question Answering)は、質問に答えるために複雑なレイヤを追加し、より難しいものにします。
本稿では,様々な構成で検索結果(検索文書)を置換することで,言語モデルがマルチホップ質問にどう反応するかを考察する。
論文 参考訳(メタデータ) (2025-05-16T23:29:47Z) - SG-FSM: A Self-Guiding Zero-Shot Prompting Paradigm for Multi-Hop Question Answering Based on Finite State Machine [27.274219226254026]
MHQA (Multi-hop Question Answering) は、多くの既存モデルにおいて依然として困難である。
マルチホップ推論能力を高めるために,SG-FSM(Self-Guiding prompting Finite State Machine)を提案する。
論文 参考訳(メタデータ) (2024-10-22T13:47:38Z) - Eliminating Position Bias of Language Models: A Mechanistic Approach [119.34143323054143]
位置バイアスは現代言語モデル (LM) の一般的な問題であることが証明されている。
我々の力学解析は、ほぼ全ての最先端のLMで使われている2つのコンポーネント(因果的注意と相対的位置エンコーディング)に位置バイアスが関係している。
位置バイアスを排除することによって、LM-as-a-judge、検索強化QA、分子生成、数学推論など、下流タスクのパフォーマンスと信頼性が向上する。
論文 参考訳(メタデータ) (2024-07-01T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。