論文の概要: Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis
- arxiv url: http://arxiv.org/abs/2508.04699v1
- Date: Wed, 06 Aug 2025 17:58:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.867501
- Title: Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis
- Title(参考訳): ホップ、スキップ、そして過度に考える:マルチホップ分析で推論モデルが崩壊する理由
- Authors: Anushka Yadav, Isha Nalawade, Srujana Pillarichety, Yashwanth Babu, Reshmi Ghosh, Samyadeep Basu, Wenlong Zhao, Ali Nasaeh, Sriram Balasubramanian, Soundararajan Srinivasan,
- Abstract要約: モデルの推論と実践的なAIチャットボットへの統合は、高度な数学、深い探索、そして抽出された質問応答問題の解決にブレークスルーをもたらした。
しかし、これらのモデルが汎用言語モデル以上の幻覚を与える理由についての完全な理解が欠落している。
本研究では,マルチホップ質問応答タスクにおける現代言語モデルの推論失敗を系統的に解明する。
- 参考スコア(独自算出の注目度): 3.711555701154055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of reasoning models and their integration into practical AI chat bots has led to breakthroughs in solving advanced math, deep search, and extractive question answering problems that requires a complex and multi-step thought process. Yet, a complete understanding of why these models hallucinate more than general purpose language models is missing. In this investigative study, we systematicallyexplore reasoning failures of contemporary language models on multi-hop question answering tasks. We introduce a novel, nuanced error categorization framework that examines failures across three critical dimensions: the diversity and uniqueness of source documents involved ("hops"), completeness in capturing relevant information ("coverage"), and cognitive inefficiency ("overthinking"). Through rigorous hu-man annotation, supported by complementary automated metrics, our exploration uncovers intricate error patterns often hidden by accuracy-centric evaluations. This investigative approach provides deeper insights into the cognitive limitations of current models and offers actionable guidance toward enhancing reasoning fidelity, transparency, and robustness in future language modeling efforts.
- Abstract(参考訳): 推論モデルの出現と実践的なAIチャットボットへの統合は、複雑で多段階の思考プロセスを必要とする高度な数学、深い探索、そして抽出された質問応答問題の解決にブレークスルーをもたらした。
しかし、これらのモデルが汎用言語モデル以上の幻覚を与える理由についての完全な理解が欠落している。
本研究では,マルチホップ質問応答タスクにおける現代言語モデルの推論失敗を系統的に解明する。
本稿では,3つの重要な側面にまたがる障害を調査する,新しい,曖昧なエラー分類フレームワークを紹介する。
補足的な自動メトリクスによってサポートされている厳密なhu-manアノテーションを通じて、我々は、しばしば精度中心の評価によって隠された複雑なエラーパターンを明らかにする。
この調査的アプローチは、現在のモデルの認知的限界について深い洞察を与え、将来の言語モデリングにおける推論の正確性、透明性、堅牢性を高めるための実用的なガイダンスを提供する。
関連論文リスト
- HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context [26.506057678587176]
不適切な文脈理解は、モデルがマルチモーダルな文脈を誤って解釈し、誤った答えをもたらすときに起こりうる。
ショートカット問題は、モデルがマルチモーダル入力において重要な手がかりを見落とし、マルチモーダル情報を考慮せずにクエリに直接対処する場合に発生する。
我々は、複雑な人間の意図や感情を理解するためのモデルを評価することを目的とした、Omni-modalベンチマークIntentBenchを紹介する。
論文 参考訳(メタデータ) (2025-06-26T14:01:03Z) - Socratic-MCTS: Test-Time Visual Reasoning by Asking the Right Questions [100.41062461003389]
フラーミング推論は,断片化された知識間の「点の接続」をモデルが支援し,非推論モデルにおいて拡張された推論トレースを生成することを示す。
提案手法を3つのベンチマークで評価し,一貫した改善点を観察する。
論文 参考訳(メタデータ) (2025-06-10T15:51:16Z) - Self-Critique Guided Iterative Reasoning for Multi-hop Question Answering [24.446222685949227]
大規模言語モデル(LLM)は知識集約型マルチホップ推論の課題に直面している。
自己批判型反復推論(SiGIR)を提案する。
SiGIRは、反復推論プロセスのガイドに自己批判的なフィードバックを使用する。
論文 参考訳(メタデータ) (2025-05-25T12:10:24Z) - Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks [42.022527376404476]
Embodied Reasonerは、o1スタイルの推論をインタラクティブなエボダイド検索タスクに拡張するモデルである。
我々は、64kの対話画像と90kの多様な思考プロセスを含む9.3kのコヒーレントな観測・推察軌道を合成する。
モデルの性能を段階的に向上する3段階のトレーニングパイプラインを開発している。
論文 参考訳(メタデータ) (2025-03-27T17:00:51Z) - Large Language Models and Mathematical Reasoning Failures [1.6114012813668932]
本稿では,50の高校レベルの単語問題を用いた大規模言語モデル(LLM)の数学的推論能力について検討する。
最終回答と解決手順の両方を厳格に分析して、推論の失敗を特定します。
より新しいモデル(例えば、o3-mini、deepseek-r1)はより精度が高いが、全てのモデルは空間的推論、戦略的計画、算術における誤りを示す。
論文 参考訳(メタデータ) (2025-02-17T09:07:32Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - Visual-O1: Understanding Ambiguous Instructions via Multi-modal Multi-turn Chain-of-thoughts Reasoning [53.45295657891099]
本稿では,マルチモーダルなマルチターン・チェーン・オブ・シークレット・推論・フレームワークであるVisual-O1を提案する。
人間のマルチモーダルなマルチターン推論をシミュレートし、高度にインテリジェントなモデルに即時体験を提供する。
私たちの研究は、不確実性と曖昧さのある現実のシナリオにおいて、人工知能が人間のように機能する可能性を強調します。
論文 参考訳(メタデータ) (2024-10-04T11:18:41Z) - Conceptual and Unbiased Reasoning in Language Models [98.90677711523645]
本稿では,抽象的質問に対する概念的推論をモデルに強制する,新しい概念化フレームワークを提案する。
既存の大規模言語モデルは概念的推論では不足しており、様々なベンチマークでは9%から28%に低下している。
ハイレベルな抽象的推論が不偏で一般化可能な意思決定の鍵となるので、モデルがどのように改善できるかについて議論する。
論文 参考訳(メタデータ) (2024-03-30T00:53:53Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Piecing Together Clues: A Benchmark for Evaluating the Detective Skills of Large Language Models [44.42887452269389]
検出者は、様々なケースで意思決定を行う際に、情報検出と推論を同時に行うことが多い。
我々は、キー情報検出とマルチホップ推論において、モデルが協調的に機能する能力を評価するために設計された読解理解データセットであるTectBenchを紹介する。
本手法は,モデルが推論の前にコンテキスト内で可能なすべての手がかりを識別することを奨励する。
論文 参考訳(メタデータ) (2023-07-11T08:45:46Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。