Fugu-MT 論文翻訳(概要): CAMEL: Continuous Action Masking Enabled by Large Language Models for Reinforcement Learning

論文の概要: CAMEL: Continuous Action Masking Enabled by Large Language Models for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2502.11896v1
Date: Mon, 17 Feb 2025 15:22:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.360914
Title: CAMEL: Continuous Action Masking Enabled by Large Language Models for Reinforcement Learning
Title（参考訳）: CAMEL:強化学習のための大規模言語モデルで実現可能な継続的アクションマスキング
Authors: Yanxiao Zhao, Yangge Qian, Jingyang Shan, Xiaolin Qin,
Abstract要約: 連続行動空間における強化学習(RL)は、非効率な探索や準最適解への収束のような永続的な課題に遭遇する。我々は,LLM生成した準最適ポリシーをRLトレーニングパイプラインに統合する新しいフレームワークであるCAMELを提案する。
参考スコア（独自算出の注目度）: 3.602902292270654
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning (RL) in continuous action spaces encounters persistent challenges, such as inefficient exploration and convergence to suboptimal solutions. To address these limitations, we propose CAMEL, a novel framework integrating LLM-generated suboptimal policies into the RL training pipeline. CAMEL leverages dynamic action masking and an adaptive epsilon-masking mechanism to guide exploration during early training stages while gradually enabling agents to optimize policies independently. At the core of CAMEL lies the integration of Python-executable suboptimal policies generated by LLMs based on environment descriptions and task objectives. Although simplistic and hard-coded, these policies offer valuable initial guidance for RL agents. To effectively utilize these priors, CAMEL employs masking-aware optimization to dynamically constrain the action space based on LLM outputs. Additionally, epsilon-masking gradually reduces reliance on LLM-generated guidance, enabling agents to transition from constrained exploration to autonomous policy refinement. Experimental validation on Gymnasium MuJoCo environments demonstrates the effectiveness of CAMEL. In Hopper-v4 and Ant-v4, LLM-generated policies significantly improve sample efficiency, achieving performance comparable to or surpassing expert masking baselines. For Walker2d-v4, where LLMs struggle to accurately model bipedal gait dynamics, CAMEL maintains robust RL performance without notable degradation, highlighting the framework's adaptability across diverse tasks. While CAMEL shows promise in enhancing sample efficiency and mitigating convergence challenges, these issues remain open for further research. Future work aims to generalize CAMEL to multimodal LLMs for broader observation-action spaces and automate policy evaluation, reducing human intervention and enhancing scalability in RL training pipelines.
Abstract（参考訳）: 連続行動空間における強化学習(RL)は、非効率な探索や準最適解への収束のような永続的な課題に遭遇する。これらの制約に対処するために,LLM生成した準最適ポリシーをRLトレーニングパイプラインに統合する新しいフレームワークであるCAMELを提案する。 CAMELは動的アクションマスキングと適応型エプシロンマスキング機構を活用して、早期訓練期間中の探索をガイドし、エージェントが独立してポリシーを最適化できるようにする。 CAMELの中核は、環境記述とタスク目標に基づいてLLMによって生成されたPython実行可能なサブ最適化ポリシーの統合である。単純かつハードコードであるが、これらのポリシーはRLエージェントに貴重な初期ガイダンスを提供する。これらの先行を効果的に活用するために、CAMELはマスク対応の最適化を採用し、LLM出力に基づいて動的に動作空間を制約する。さらに、エプシロン・マスキングはLSMによるガイダンスへの依存を徐々に減らし、エージェントは制約された探索から自律的な政策改善に移行することができる。 Gymnasium MuJoCo環境の実験的検証により, CAMELの有効性が示された。 Hopper-v4とAnt-v4では、LCM生成ポリシーはサンプル効率を大幅に改善し、専門家のマスキングベースラインに匹敵するパフォーマンスを達成する。 LLMが二足歩行のダイナミクスを正確にモデル化するのに苦労しているWalker2d-v4では、CAMELは顕著な劣化なしに堅牢なRL性能を維持しており、様々なタスクにまたがるフレームワークの適応性を強調している。 CAMELはサンプル効率の向上と収束の課題の緩和を約束するが、これらの問題はさらなる研究のために未解決のままである。今後の研究は、CAMELをマルチモーダルLLMに一般化し、より広い観察行動空間を提供し、ポリシー評価を自動化し、人間の介入を減らし、RLトレーニングパイプラインのスケーラビリティを向上させることを目的としている。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
RLAE: Reinforcement Learning-Assisted Ensemble for LLMs [21.77261258691006]
大規模言語モデル(LLM)は、様々なモデルの多様な強みを効果的に組み合わせ、様々なタスクのパフォーマンスを高めるための有望なアプローチを提供する。マルコフ決定プロセス(MDP)のレンズを通してアンサンブルを再構成する新しいフレームワークであるLLMのための強化学習支援アンサンブルを提案する。提案手法では,入力コンテキストと中間生成状態の両方を考慮してアンサンブル重みを動的に調整するRLエージェントを提案する。
論文参考訳（メタデータ） (2025-05-31T07:38:41Z)
LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation [7.054214377609925]
強化学習(RL)は、様々な領域で顕著な成功を収めている。複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
論文参考訳（メタデータ） (2025-05-27T03:40:02Z)
Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。誤差ステップの反射や補正を含む自己反射軌道を合成する。実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文参考訳（メタデータ） (2025-05-26T14:11:12Z)
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文参考訳（メタデータ） (2025-03-27T17:34:25Z)
Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning [16.654435148168172]
大規模言語モデル(LLM)は、推論と意思決定において顕著な将来性を示している。サンプル効率,一般化,マルチタスク適応性を向上させるため,LDSCと呼ばれるLCM誘導階層型RLフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T15:49:56Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
Adaptive Resource Allocation Optimization Using Large Language Models in Dynamic Wireless Environments [25.866960634041092]
現在のソリューションはドメイン固有のアーキテクチャや技術に依存しており、制約付き最適化のための一般的なDLアプローチは未開発のままである。本稿では,制約を順守しながら複雑な資源配分問題に対処するために,資源割当(LLM-RAO)のための大規模言語モデルを提案する。 LLM-RAO は従来の DL 法と比較して最大40% の性能向上を実現し,分析手法よりも80$% 向上した。
論文参考訳（メタデータ） (2025-02-04T12:56:59Z)
Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。 LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文参考訳（メタデータ） (2025-01-23T16:37:44Z)
SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling [29.29604779151457]
本稿では,LSM剤に適応するソフトアクター・クライトと後方視の適応について検討する。本手法は,従来のマルチゴールRL環境において,オンライン学習を行う自動LLMエージェントへの道筋を示す。
論文参考訳（メタデータ） (2024-10-16T11:59:27Z)
Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。 PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。 LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-28T04:21:24Z)
Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。 Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文参考訳（メタデータ） (2024-05-23T08:33:19Z)
Value Augmented Sampling for Language Model Alignment and Personalization [39.070662999014836]
報酬最適化のための新しいフレームワーク、価値拡張サンプリング(VAS)を提案する。 VASは、ポリシーと値関数を併用することなく、最適報酬最大化ポリシーを解く。我々のアルゴリズムは、いくつかの報酬を作曲し、展開期間中に各報酬の幅を制御できる新しい能力を解き放ちます。
論文参考訳（メタデータ） (2024-05-10T17:59:04Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。