論文の概要: Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents
- arxiv url: http://arxiv.org/abs/2602.12662v1
- Date: Fri, 13 Feb 2026 06:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.871171
- Title: Think Fast and Slow: Step-Level Cognitive Depth Adaptation for LLM Agents
- Title(参考訳): LLMエージェントのステップレベル認知深度適応
- Authors: Ruihan Yang, Fanghua Ye, Xiang We, Ruoqing Zhao, Kang Luo, Xinbo Xu, Bo Zhao, Ruotian Ma, Shanyi Wang, Zhaopeng Tu, Xiaolong Li, Deqing Yang, Linus,
- Abstract要約: 大規模言語モデル(LLM)は、多ターン意思決定タスクのための自律エージェントとして、ますます多くデプロイされている。
本稿では,エージェントが各ステップで認知深度を動的に適応するように訓練するフレームワークであるCogを紹介する。
ALFWorldとScienceWorldの実験では、Cogは最先端のパフォーマンスを優れた効率で達成している。
- 参考スコア(独自算出の注目度): 49.119608399413806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as autonomous agents for multi-turn decision-making tasks. However, current agents typically rely on fixed cognitive patterns: non-thinking models generate immediate responses, while thinking models engage in deep reasoning uniformly. This rigidity is inefficient for long-horizon tasks, where cognitive demands vary significantly from step to step, with some requiring strategic planning and others only routine execution. In this paper, we introduce CogRouter, a framework that trains agents to dynamically adapt cognitive depth at each step. Grounded in ACT-R theory, we design four hierarchical cognitive levels ranging from instinctive responses to strategic planning. Our two-stage training approach includes Cognition-aware Supervised Fine-tuning (CoSFT) to instill stable level-specific patterns, and Cognition-aware Policy Optimization (CoPO) for step-level credit assignment via confidence-aware advantage reweighting. The key insight is that appropriate cognitive depth should maximize the confidence of the resulting action. Experiments on ALFWorld and ScienceWorld demonstrate that CogRouter achieves state-of-the-art performance with superior efficiency. With Qwen2.5-7B, it reaches an 82.3% success rate, outperforming GPT-4o (+40.3%), OpenAI-o3 (+18.3%), and GRPO (+14.0%), while using 62% fewer tokens.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多ターン意思決定タスクのための自律エージェントとして、ますます多くデプロイされている。
しかしながら、現在のエージェントは通常、固定された認知パターンに依存している。非思考モデルが即時反応を生成し、思考モデルが深い推論を均一に行う。
この剛性は長期的タスクでは非効率であり、認知的要求はステップごとに大きく異なり、戦略的な計画を必要とするものもあれば、定期的な実行を必要とするものもある。
本稿では,エージェントが各ステップで認知深度を動的に適応するように訓練するフレームワークであるCogRouterを紹介する。
ACT-R理論を基礎として,本能的な反応から戦略的計画まで,4つの階層的認知レベルを設計する。
当社の2段階トレーニングアプローチには,安定したレベル固有パターンを具現化するCoSFT(Cognition-aware Supervised Fine-tuning)と,信頼-aware advantage reweightingによるステップレベルのクレジット代入のためのCoPO(Cognition-aware Policy Optimization)がある。
重要な洞察は、適切な認知深度は、結果の行動の信頼性を最大化するべきであるということである。
ALFWorldとScienceWorldの実験では、CogRouterは最先端のパフォーマンスを優れた効率で達成している。
Qwen2.5-7Bでは、GPT-4o(+40.3%)、OpenAI-o3(+18.3%)、GRPO(+14.0%)を上回り、82.3%の成功率に達した。
関連論文リスト
- Reflecting with Two Voices: A Co-Adaptive Dual-Strategy Framework for LLM-Based Agent Decision Making [24.534365665776672]
大規模言語モデル(LLM)エージェントは、しばしば外部のデモンストレーションや検索拡張計画に依存している。
本研究では,DuSARを提案する。DuSARは1つの凍結LDMが共適応推論を行うことを可能にするデモフリーフレームワークである。
ALFWorldとMind2Webでは、DuSARはオープンソースのLLMで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-09T08:44:59Z) - Multi-Agent Reinforcement Learning and Real-Time Decision-Making in Robotic Soccer for Virtual Environments [0.0]
本稿では,これらの課題に対処するMARL(Multi-Agent Reinforcement Learning)フレームワークを提案する。
スケーラビリティを確保するため、平均場理論をHRLフレームワークに統合する。
我々の平均場アクター批判法は性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-12-02T19:11:44Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。