論文の概要: Thinking Isn't an Illusion: Overcoming the Limitations of Reasoning Models via Tool Augmentations
- arxiv url: http://arxiv.org/abs/2507.17699v1
- Date: Wed, 23 Jul 2025 17:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.101877
- Title: Thinking Isn't an Illusion: Overcoming the Limitations of Reasoning Models via Tool Augmentations
- Title(参考訳): 思考はイライラではない:ツール拡張による推論モデルの限界を克服する
- Authors: Zhao Song, Song Yue, Jiahao Zhang,
- Abstract要約: 大きな推論モデル(LRM)は、複雑な推論タスクを扱う最終回答に到達する前にステップバイステップの思考プロセスを出力するように設計されている。
最近の実証研究は、明示的な推論のないLLMが、低または高複雑性のタスクにおいて実際にLRMよりも優れていることを示唆している。
ツール拡張の際, LRMの限界が持続するかどうかを検討する。
- 参考スコア(独自算出の注目度): 11.503915439591735
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Reasoning Models (LRMs) have become a central focus in today's large language model (LLM) research, where models are designed to output a step-by-step thinking process before arriving at a final answer to handle complex reasoning tasks. Despite their promise, recent empirical studies (e.g., [Shojaee et al., 2025] from Apple) suggest that this thinking process may not actually enhance reasoning ability, where LLMs without explicit reasoning actually outperform LRMs on tasks with low or high complexity. In this work, we revisit these findings and investigate whether the limitations of LRMs persist when tool augmentations are introduced. We incorporate two types of tools, Python interpreters and scratchpads, and evaluate three representative LLMs and their LRM counterparts on Apple's benchmark reasoning puzzles. Our results show that, with proper tool use, LRMs consistently outperform their non-reasoning counterparts across all levels of task complexity. These findings challenge the recent narrative that reasoning is an illusion and highlight the potential of tool-augmented LRMs for solving complex problems.
- Abstract(参考訳): 大規模推論モデル(Large Reasoning Models、LRM)は、今日の大規模言語モデル(LLM)研究の中心となり、複雑な推論タスクを扱う最終回答に到達する前に、ステップバイステップの思考プロセスを出力するようにモデルが設計されている。
彼らの約束にもかかわらず、最近の実証研究(例: AppleのShojaee et al , 2025)は、この思考プロセスは推論能力を高めないかもしれないことを示唆している。
本研究は,これらの知見を再考し,ツール拡張の際, LRMの限界が持続するかどうかを検討する。
我々は,Pythonインタプリタとスクラッチパッドという2種類のツールを組み込んで,Appleのベンチマーク推論パズルに対して,3つの代表的なLLMとそれらのLRMを評価した。
我々の結果は、適切なツールを使用すると、LRMはタスクの複雑さのあらゆるレベルにおいて、相反する非理性よりも一貫して優れています。
これらの知見は, 推論は錯覚であり, 複雑な問題を解くためのツール強化RTMの可能性を強調している, 最近の物語に挑戦するものである。
関連論文リスト
- The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity [16.266145641151375]
大規模な推論モデルは、回答を提供する前に詳細な思考プロセスを生成する。
我々は, LRM がある種の複雑さを超えて完全に精度の低下に直面していることを示す。
また、より深く推論の痕跡を調べ、探索された解のパターンを研究する。
論文 参考訳(メタデータ) (2025-06-07T22:42:29Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - Reasoning LLMs are Wandering Solution Explorers [5.3795217858078805]
本稿では、系統的な問題解決を構成するものを定式化し、系統的な探検家ではなく、移動者である理由を明らかにする共通障害モードを特定する。
以上の結果から,現在のモデルの性能は,複雑性が増大するにつれて著しく低下するが,単純なタスクに適していると考えられることが示唆された。
論文 参考訳(メタデータ) (2025-05-26T17:59:53Z) - Exploring the Necessity of Reasoning in LLM-based Agent Scenarios [74.35956310688164]
ツール利用,計画設計,問題解決の9つのタスクを含むLaRMAフレームワークを提案する。
LRMは計画設計のような推論集約的なタスクにおいてLLMを超越し、反復反射を優れた結果に活用する、という4つの研究課題に対処する。
LRMの強化された推論は、過剰思考や事実を無視した傾向を含む高い計算コスト、長い処理、行動上の問題を引き起こす。
論文 参考訳(メタデータ) (2025-03-14T04:34:31Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。