Fugu-MT 論文翻訳(概要): CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

論文の概要: CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent

arxiv url: http://arxiv.org/abs/2512.04949v1
Date: Thu, 04 Dec 2025 16:15:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-05 21:11:46.264031
Title: CARL: Critical Action Focused Reinforcement Learning for Multi-Step Agent
Title（参考訳）: CARL:マルチステップエージェントの強化学習に着目した批判行動
Authors: Leyang Shen, Yang Zhang, Chun Kai Ling, Xiaoyan Zhao, Tat-Seng Chua,
Abstract要約: CARLは,多段階エージェントに適した,クリティカルアクションに着目した強化学習アルゴリズムである。 Carlは、トレーニング中のパフォーマンスと高い効率の両方を達成し、さまざまな評価設定にわたって推論を行う。
参考スコア（独自算出の注目度）: 53.56274149236814
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Agents capable of accomplishing complex tasks through multiple interactions with the environment have emerged as a popular research direction. However, in such multi-step settings, the conventional group-level policy optimization algorithm becomes suboptimal because of its underlying assumption that each action holds equal contribution, which deviates significantly from reality. Our analysis reveals that only a small fraction of actions are critical in determining the final outcome. Building on this insight, we propose CARL, a critical-action-focused reinforcement learning algorithm tailored for multi-step agents. CARL achieves focused training through providing action-level optimization signals for high-criticality actions while excluding low-criticality actions from model update. Extensive experiments demonstrate that CARL achieves both stronger performance and higher efficiency during training and inference across diverse evaluation settings.
Abstract（参考訳）: 環境との相互作用を通じて複雑なタスクを達成できるエージェントが、一般的な研究の方向性として現れている。しかし、このような多段階的な設定では、従来のグループレベルのポリシー最適化アルゴリズムは、それぞれのアクションが同等のコントリビューションを持ち、現実からかなり逸脱しているという前提から、サブ最適となる。分析の結果,最終結果の決定には少数の行動しか重要でないことが明らかとなった。この知見に基づいて,多段階エージェントに適した臨界行動に着目した強化学習アルゴリズムであるCARLを提案する。 CARLは、モデル更新から低臨界動作を除外しながら、高臨界動作に対するアクションレベルの最適化信号を提供することで、集中的なトレーニングを実現する。大規模な実験により、CARLは、様々な評価設定をまたいだトレーニングと推論において、より強力なパフォーマンスと高い効率を達成することが示された。

関連論文リスト

CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文参考訳（メタデータ） (2025-10-01T15:41:27Z)
Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文参考訳（メタデータ） (2025-09-03T18:52:49Z)
Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文参考訳（メタデータ） (2025-07-22T09:26:00Z)
Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文参考訳（メタデータ） (2025-04-10T16:14:17Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。 3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文参考訳（メタデータ） (2024-06-17T03:29:13Z)
Behavior-Guided Actor-Critic: Improving Exploration via Learning Policy Behavior Representation for Deep Reinforcement Learning [0.0]
行動誘導アクタークリティカル(BAC)を非政治アクタークリティカル深部RLアルゴリズムとして提案する。 BACは、オートエンコーダを介してポリシーの挙動を数学的に定式化する。その結果,いくつかの最先端学習アルゴリズムと比較して,BACの性能は有意に向上した。
論文参考訳（メタデータ） (2021-04-09T15:22:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。