論文の概要: CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent
- arxiv url: http://arxiv.org/abs/2512.04949v1
- Date: Thu, 04 Dec 2025 16:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.264031
- Title: CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent
- Title(参考訳): CARL:マルチステップエージェントの強化学習に着目した批判行動
- Authors: Leyang Shen, Yang Zhang, Chun Kai Ling, Xiaoyan Zhao, Tat-Seng Chua,
- Abstract要約: CARLは,多段階エージェントに適した,クリティカルアクションに着目した強化学習アルゴリズムである。
Carlは、トレーニング中のパフォーマンスと高い効率の両方を達成し、さまざまな評価設定にわたって推論を行う。
- 参考スコア(独自算出の注目度): 53.56274149236814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Agents capable of accomplishing complex tasks through multiple interactions with the environment have emerged as a popular research direction. However, in such multi-step settings, the conventional group-level policy optimization algorithm becomes suboptimal because of its underlying assumption that each action holds equal contribution, which deviates significantly from reality. Our analysis reveals that only a small fraction of actions are critical in determining the final outcome. Building on this insight, we propose CARL, a critical-action-focused reinforcement learning algorithm tailored for multi-step agents. CARL achieves focused training through providing action-level optimization signals for high-criticality actions while excluding low-criticality actions from model update. Extensive experiments demonstrate that CARL achieves both stronger performance and higher efficiency during training and inference across diverse evaluation settings.
- Abstract(参考訳): 環境との相互作用を通じて複雑なタスクを達成できるエージェントが、一般的な研究の方向性として現れている。
しかし、このような多段階的な設定では、従来のグループレベルのポリシー最適化アルゴリズムは、それぞれのアクションが同等のコントリビューションを持ち、現実からかなり逸脱しているという前提から、サブ最適となる。
分析の結果,最終結果の決定には少数の行動しか重要でないことが明らかとなった。
この知見に基づいて,多段階エージェントに適した臨界行動に着目した強化学習アルゴリズムであるCARLを提案する。
CARLは、モデル更新から低臨界動作を除外しながら、高臨界動作に対するアクションレベルの最適化信号を提供することで、集中的なトレーニングを実現する。
大規模な実験により、CARLは、様々な評価設定をまたいだトレーニングと推論において、より強力なパフォーマンスと高い効率を達成することが示された。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。