論文の概要: Eliciting Reasoning in Language Models with Cognitive Tools
- arxiv url: http://arxiv.org/abs/2506.12115v1
- Date: Fri, 13 Jun 2025 13:56:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.205006
- Title: Eliciting Reasoning in Language Models with Cognitive Tools
- Title(参考訳): 認知ツールを用いた言語モデルにおける推論の緩和
- Authors: Brown Ebouky, Andrea Bartezzaghi, Mattia Rigotti,
- Abstract要約: 我々は認知心理学と認知アーキテクチャにおける長年の文献に基づいて構築する。
特定の推論操作をカプセル化した「認知ツール」の小さなセットをLCMに組み込んだ。
驚くべきことに、この単純な戦略は標準的な数学的推論ベンチマークの性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 9.68459632251626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent advent of reasoning models like OpenAI's o1 was met with excited speculation by the AI community about the mechanisms underlying these capabilities in closed models, followed by a rush of replication efforts, particularly from the open source community. These speculations were largely settled by the demonstration from DeepSeek-R1 that chains-of-thought and reinforcement learning (RL) can effectively replicate reasoning on top of base LLMs. However, it remains valuable to explore alternative methods for theoretically eliciting reasoning that could help elucidate the underlying mechanisms, as well as providing additional methods that may offer complementary benefits. Here, we build on the long-standing literature in cognitive psychology and cognitive architectures, which postulates that reasoning arises from the orchestrated, sequential execution of a set of modular, predetermined cognitive operations. Crucially, we implement this key idea within a modern agentic tool-calling framework. In particular, we endow an LLM with a small set of "cognitive tools" encapsulating specific reasoning operations, each executed by the LLM itself. Surprisingly, this simple strategy results in considerable gains in performance on standard mathematical reasoning benchmarks compared to base LLMs, for both closed and open-weight models. For instance, providing our "cognitive tools" to GPT-4.1 increases its pass@1 performance on AIME2024 from 26.7% to 43.3%, bringing it very close to the performance of o1-preview. In addition to its practical implications, this demonstration contributes to the debate regarding the role of post-training methods in eliciting reasoning in LLMs versus the role of inherent capabilities acquired during pre-training, and whether post-training merely uncovers these latent abilities.
- Abstract(参考訳): OpenAIのo1のような最近の推論モデルの出現は、クローズドモデルにおけるこれらの機能の基礎となるメカニズムについて、AIコミュニティから興奮した憶測に満ちていた。
これらの推測は、DeepSeek-R1による、思考の連鎖と強化学習(RL)がベースLLM上の推論を効果的に再現できるという実証によって、大半が解決された。
しかし、基礎となるメカニズムを解明するのに役立つ理論的推論を導き出す方法や、補完的な利点をもたらすかもしれない追加の方法を提案することは、依然として有益である。
ここでは,認知心理学と認知アーキテクチャにおける長年にわたる文献に基づいて,一連のモジュール的,所定の認知操作の逐次的実行から推論が生じることを仮定する。
重要なのは、このキーとなるアイデアを現代のエージェントツールコールフレームワークで実装することです。
特に、LLM自体によって実行される特定の推論操作をカプセル化した「認知ツール」の小さなセットをLLMに付与する。
驚くべきことに、この単純な戦略は、クローズドモデルとオープンウェイトモデルの両方において、基本LLMと比較して標準的な数学的推論ベンチマークのパフォーマンスが大幅に向上する。
例えば、GPT-4.1に"認知ツール"を提供することで、AIME2024のパス@1のパフォーマンスが26.7%から43.3%に向上し、o1-previewのパフォーマンスに非常に近いものになった。
この実証は, LLMにおける推論におけるポストトレーニング手法の役割と, 事前学習中に獲得した固有能力の役割と, ポストトレーニングが潜伏能力を明らかにするだけであるかどうかの議論に寄与する。
関連論文リスト
- Who Reasons in the Large Language Models? [18.521142439429635]
十分に訓練された大言語モデルにおける推論能力は、Transformerのマルチヘッド自己認識機構における出力投影モジュール(oproj)に起因していることを示す。
我々は、オプロイが推論を可能にする上で中心的な役割を果たすことを示す状況証拠と経験的証拠の両方を提供し、他のモジュールはより流動的な対話に寄与する。
論文 参考訳(メタデータ) (2025-05-27T10:26:47Z) - RL in Name Only? Analyzing the Structural Assumptions in RL post-training for LLMs [14.78605805191225]
近年,大規模言語モデル(LLM)の強化学習に基づくポストトレーニングが注目されている。
これらの手法の基礎となる定式化と仮定を批判的に検討する。
論文 参考訳(メタデータ) (2025-05-19T19:57:15Z) - I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders [8.1201445044499]
大規模言語モデル(LLM)は自然言語処理において顕著な成功を収めた。
近年の進歩は、新たな推論型LSMの開発に繋がった。
オープンソースのDeepSeek-R1は、深い思考と複雑な推論を統合することで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-03-24T16:54:26Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models [42.70951894754312]
遅い思考機構を大きな言語モデルに統合することは、Level 2 AGI Reasonersにとって有望な方法である。
トレーニングと推論の両方において,LLMにバックトラック機能を持たせる自己追跡機構を提案する。
このメカニズムは推論能力を高めるだけでなく、スロー思考のプロセスを自己改善を通じて高速思考に変換することで効率も向上する。
論文 参考訳(メタデータ) (2025-02-06T08:52:43Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Can formal argumentative reasoning enhance LLMs performances? [0.3659498819753633]
本稿では,Large Language Models (LLM) の性能に及ぼす計算論証セマンティクスの導入効果を評価するパイプライン (MQArgEng) を提案する。
調査の結果、MQArgEngは、調査対象のトピックのカテゴリの大部分で適度なパフォーマンス向上をもたらし、将来性を示し、さらなる研究を保証していることが示された。
論文 参考訳(メタデータ) (2024-05-16T22:09:31Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。