論文の概要: LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models
- arxiv url: http://arxiv.org/abs/2505.15293v1
- Date: Wed, 21 May 2025 09:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.411843
- Title: LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models
- Title(参考訳): LLM-Explorer:大規模言語モデルによって駆動されるプラグイン強化学習政策探索
- Authors: Qianyue Hao, Yiwen Song, Qingmin Liao, Jian Yuan, Yong Li,
- Abstract要約: 政策探究は強化学習(RL)において重要であり、既存のアプローチには欲求、ガウス過程などが含まれる。
大規模言語モデル(LLM)を用いたタスク固有探索戦略を適応的に生成するLLM-Explorerを設計する。
我々の設計は、DQNシリーズ、DDPG、TD3など、広く使われているRLアルゴリズムと互換性のあるプラグインモジュールである。
- 参考スコア(独自算出の注目度): 28.264011412168347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy exploration is critical in reinforcement learning (RL), where existing approaches include greedy, Gaussian process, etc. However, these approaches utilize preset stochastic processes and are indiscriminately applied in all kinds of RL tasks without considering task-specific features that influence policy exploration. Moreover, during RL training, the evolution of such stochastic processes is rigid, which typically only incorporates a decay in the variance, failing to adjust flexibly according to the agent's real-time learning status. Inspired by the analyzing and reasoning capability of large language models (LLMs), we design LLM-Explorer to adaptively generate task-specific exploration strategies with LLMs, enhancing the policy exploration in RL. In our design, we sample the learning trajectory of the agent during the RL training in a given task and prompt the LLM to analyze the agent's current policy learning status and then generate a probability distribution for future policy exploration. Updating the probability distribution periodically, we derive a stochastic process specialized for the particular task and dynamically adjusted to adapt to the learning process. Our design is a plug-in module compatible with various widely applied RL algorithms, including the DQN series, DDPG, TD3, and any possible variants developed based on them. Through extensive experiments on the Atari and MuJoCo benchmarks, we demonstrate LLM-Explorer's capability to enhance RL policy exploration, achieving an average performance improvement up to 37.27%. Our code is open-source at https://anonymous.4open.science/r/LLM-Explorer-19BE for reproducibility.
- Abstract(参考訳): 政策探究は強化学習(RL)において重要であり、既存のアプローチには欲求、ガウス過程などが含まれる。
しかし、これらの手法は予め設定された確率過程を利用しており、政策探索に影響を与えるタスク固有の特徴を考慮せずに、あらゆる種類のRLタスクに無差別に適用されている。
さらに、RLトレーニングの間、そのような確率過程の進化は厳密であり、通常は分散に崩壊を組み込むだけであり、エージェントのリアルタイム学習状態に応じて柔軟に調整することができない。
大規模言語モデル(LLM)の分析と推論能力に触発されて,LLMを用いたタスク固有の探索戦略を適応的に生成するLLM-Explorerを設計し,RLにおけるポリシー探索を強化した。
本設計では、与えられたタスクにおけるRL訓練中にエージェントの学習軌跡をサンプリングし、LLMにエージェントの現在の政策学習状況を分析し、将来の政策探索のための確率分布を生成する。
確率分布を周期的に更新すると、特定のタスクに特化した確率過程が導出され、学習プロセスに適応するように動的に調整される。
我々の設計は、DQNシリーズ、DDPG、TD3など、広く使われているRLアルゴリズムと互換性のあるプラグインモジュールである。
Atari と MuJoCo ベンチマークに関する広範な実験を通じて、LLM-Explorer が RL ポリシー探索を強化し、平均的なパフォーマンス改善を 37.27% まで達成できることを示した。
私たちのコードは再現性のためにhttps://anonymous.4open.science/r/LLM-Explorer-19BEでオープンソース化されています。
関連論文リスト
- RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.65034908728828]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。