論文の概要: Efficient Soft Actor-Critic with LLM-Based Action-Level Guidance for Continuous Control
- arxiv url: http://arxiv.org/abs/2603.17468v1
- Date: Wed, 18 Mar 2026 08:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.57842
- Title: Efficient Soft Actor-Critic with LLM-Based Action-Level Guidance for Continuous Control
- Title(参考訳): 連続制御のためのLCMに基づくアクションレベル誘導を用いたソフトアクター・クライト
- Authors: Hao Ma, Zhiqiang Pu, Xiaolin Ai, Huimu Wang,
- Abstract要約: 本稿では,大規模状態行動空間における効率的な探索を容易にする新しい強化学習(RL)アルゴリズムである GuidedSAC を提案する。
GuidedSACは、Soft Actor-Critic (SAC)アルゴリズムのアクションレベルガイダンスを提供するインテリジェントスーパーバイザとして、大きな言語モデル(LLM)を利用している。
- 参考スコア(独自算出の注目度): 13.152911059014812
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present GuidedSAC, a novel reinforcement learning (RL) algorithm that facilitates efficient exploration in vast state-action spaces. GuidedSAC leverages large language models (LLMs) as intelligent supervisors that provide action-level guidance for the Soft Actor-Critic (SAC) algorithm. The LLM-based supervisor analyzes the most recent trajectory using state information and visual replays, offering action-level interventions that enable targeted exploration. Furthermore, we provide a theoretical analysis of GuidedSAC, proving that it preserves the convergence guarantees of SAC while improving convergence speed. Through experiments in both discrete and continuous control environments, including toy text tasks and complex MuJoCo benchmarks, we demonstrate that GuidedSAC consistently outperforms standard SAC and state-of-the-art exploration-enhanced variants (e.g., RND, ICM, and E3B) in terms of sample efficiency and final performance.
- Abstract(参考訳): 本稿では,大規模状態行動空間における効率的な探索を容易にする新しい強化学習(RL)アルゴリズムである GuidedSACを提案する。
GuidedSACは、Soft Actor-Critic (SAC)アルゴリズムのアクションレベルガイダンスを提供するインテリジェントスーパーバイザとして、大きな言語モデル(LLM)を利用している。
LLMベースのスーパーバイザーは、最新の軌跡を状態情報と視覚的再生を用いて分析し、ターゲット探索を可能にするアクションレベルの介入を提供する。
さらに,SACの収束速度を向上しつつ,SACの収束保証を保っていることを証明したガイドSACの理論的解析を行った。
おもちゃのテキストタスクや複雑な MuJoCo ベンチマークなど,個別かつ連続的な制御環境の実験を通じて,GuidSAC がサンプル効率と最終性能において標準 SAC と最先端の探索強化型(RND,ICM,E3B など)を一貫して上回っていることを実証した。
関連論文リスト
- Rethinking Soft Actor-Critic in High-Dimensional Action Spaces: The Cost of Ignoring Distribution Shift [20.942509669153413]
Soft Actor-Criticアルゴリズムは、様々な強化学習タスクにおいて、堅牢な性能で広く認識されている。
この分布シフトの包括的理論的および実証的な分析を行う。
本報告では,SACの性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-10-22T06:46:28Z) - EVOLvE: Evaluating and Optimizing LLMs For In-Context Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Deep Reinforcement Learning-based UAV Navigation and Control: A Soft
Actor-Critic with Hindsight Experience Replay Approach [0.9137554315375919]
深部強化学習 (DRL) アルゴリズムのクラスとして, 後視体験リプレイ (HER) を用いたSACHER (Software actor-critic, SAC) を提案する。
HERはSACのサンプル効率を向上するため,SACHERはSACよりも高速かつ高精度に最適な結果が得られることを示す。
無人航空機(UAV)の航法・制御問題にSACHERを適用し,SACHERが最適航法経路を生成する。
論文 参考訳(メタデータ) (2021-06-02T08:30:14Z) - Context-Based Soft Actor Critic for Environments with Non-stationary
Dynamics [8.318823695156974]
本論文では, LC-SAC(Latent Context-based Soft Actor Critic)手法を提案する。
コントラスト予測損失関数を最小化することにより、学習されたコンテキスト変数は、環境ダイナミクスとエージェントの最近の振る舞いに関する情報をキャプチャする。
実験の結果, LC-SAC は MetaWorld ML1 タスクの SAC アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2021-05-07T15:00:59Z) - DSAC: Distributional Soft Actor-Critic for Risk-Sensitive Reinforcement Learning [25.658136792327358]
本稿では,蓄積した報酬の分布情報の強度とエントロピー駆動探索を組み合わせたDSACアルゴリズムを提案する。
DSACはアクションと報酬の両方のランダム性をモデル化し、様々な連続制御タスクのベースラインパフォーマンスを上回る。
DSACがリスクニュートラルおよびリスクセンシティブな制御タスクにおいて,エージェント性能を向上させる効果を示す実験を行った。
論文 参考訳(メタデータ) (2020-04-30T02:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。