論文の概要: Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2505.16315v1
- Date: Thu, 22 May 2025 07:15:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.111845
- Title: Incentivizing Dual Process Thinking for Efficient Large Language Model Reasoning
- Title(参考訳): 効率の良い大言語モデル推論のためのデュアルプロセス思考のインセンティブ化
- Authors: Xiaoxue Cheng, Junyi Li, Zhenduo Zhang, Xinyu Tang, Wayne Xin Zhao, Xinyu Kong, Zhiqiang Zhang,
- Abstract要約: 大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、しばしば過度に考えることに悩まされている。
認知科学における二重プロセス理論に着想を得て,適応認知政策最適化を提案する。
ACPOは、適応的な認知アロケーションと動的システムスイッチによって、LRMの効率的な推論を可能にする。
- 参考スコア(独自算出の注目度): 75.04643265875072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models (LRMs) have demonstrated strong performance on complex reasoning tasks, but often suffer from overthinking, generating redundant content regardless of task difficulty. Inspired by the dual process theory in cognitive science, we propose Adaptive Cognition Policy Optimization (ACPO), a reinforcement learning framework that enables LRMs to achieve efficient reasoning through adaptive cognitive allocation and dynamic system switch. ACPO incorporates two key components: (1) introducing system-aware reasoning tokens to explicitly represent the thinking modes thereby making the model's cognitive process transparent, and (2) integrating online difficulty estimation and token length budget to guide adaptive system switch and reasoning during reinforcement learning. To this end, we propose a two-stage training strategy. The first stage begins with supervised fine-tuning to cold start the model, enabling it to generate reasoning paths with explicit thinking modes. In the second stage, we apply ACPO to further enhance adaptive system switch for difficulty-aware reasoning. Experimental results demonstrate that ACPO effectively reduces redundant reasoning while adaptively adjusting cognitive allocation based on task complexity, achieving efficient hybrid reasoning.
- Abstract(参考訳): 大規模推論モデル(LRM)は複雑な推論タスクに対して強い性能を示してきたが、多くの場合、タスクの難易度に関わらず、過度に考え、冗長なコンテンツを生成する。
認知科学における二重プロセス理論に着想を得て,適応的認知アロケーションと動的システムスイッチによる効率的な推論を実現するための強化学習フレームワークである適応的認知ポリシー最適化(ACPO)を提案する。
ACPOは,(1)思考モードを明確に表現するためにシステム認識推論トークンを導入し,モデルの認知プロセスを透過的にすること,(2)強化学習中に適応的なシステムスイッチと推論を導くために,オンラインの難易度推定とトークン長予算を統合すること,の2つの重要な要素を取り入れている。
そこで本研究では,2段階のトレーニング戦略を提案する。
最初のステージは、教師付き微調整でモデルを開始することから始まり、明確な思考モードで推論パスを生成することができる。
第2段階では,困難を考慮した推論のための適応型システムスイッチをさらに強化するためにACPOを適用した。
実験の結果、ACPOはタスクの複雑さに基づいて認知的アロケーションを適応的に調整しながら、冗長な推論を効果的に低減し、効率的なハイブリッド推論を実現することが示された。
関連論文リスト
- Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models [45.33952788910874]
TONは視覚言語モデルの2段階のトレーニング戦略である。
選択的な推論のためのコールドスタートとして機能するシンクまたはノットフォーマットを導入している。
TONは、バニラGRPOと比較して、完成期間を最大90%短縮することができる。
論文 参考訳(メタデータ) (2025-05-22T16:13:29Z) - Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - DSADF: Thinking Fast and Slow for Decision Making [9.84593001541736]
RLエージェントと高速かつ直感的な意思決定のためのメモリ空間からなるシステム1と、深く解析的な推論のためのVLMによって駆動されるシステム2の2つの補完モジュールを統合するためのデュアルシステム適応決定フレームワーク(DSADF)を提案する。
論文 参考訳(メタデータ) (2025-05-13T02:58:04Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。
FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。
FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文 参考訳(メタデータ) (2024-12-12T09:01:18Z) - Unlocking Structured Thinking in Language Models with Cognitive Prompting [0.0]
大規模言語モデル(LLM)における問題解決を導く新しいアプローチとして認知的プロンプトを提案する。
本稿では,認知操作の決定論的シーケンス,自己適応型,ハイブリッド型という3つの変種を紹介する。
LLaMA, Gemma2, Qwenの各モデルの算術的推論ベンチマークGSM8Kにおける実験により、認知的プロンプトは標準的な質問応答に比べて性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-10-03T19:53:47Z) - The Role of Deductive and Inductive Reasoning in Large Language Models [37.430396755248104]
本稿では,大規模言語モデル(LLM)推論を強化するために,DID法を提案する。
DIDはリトルストーン次元と情報エントロピーを組み合わせた2次元複雑度評価システムを実装している。
その結果,推理精度と解の精度は有意に向上した。
論文 参考訳(メタデータ) (2024-10-03T18:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。