論文の概要: LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation
- arxiv url: http://arxiv.org/abs/2505.20671v1
- Date: Tue, 27 May 2025 03:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.38404
- Title: LLM-Guided Reinforcement Learning: Addressing Training Bottlenecks through Policy Modulation
- Title(参考訳): LLM-Guided Reinforcement Learning: 政策変調による訓練施設への取り組み
- Authors: Heng Tan, Hua Yan, Yu Yang,
- Abstract要約: 強化学習(RL)は、様々な領域で顕著な成功を収めている。
複雑なタスクに対する効果的なポリシーの訓練は依然として難しい。
既存のトレーニングボトルネックを軽減するアプローチは、2つのカテゴリに分類される。
- 参考スコア(独自算出の注目度): 7.054214377609925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reinforcement learning (RL) has achieved notable success in various domains, training effective policies for complex tasks remains challenging. Agents often converge to local optima and fail to maximize long-term rewards. Existing approaches to mitigate training bottlenecks typically fall into two categories: (i) Automated policy refinement, which identifies critical states from past trajectories to guide policy updates, but suffers from costly and uncertain model training; and (ii) Human-in-the-loop refinement, where human feedback is used to correct agent behavior, but this does not scale well to environments with large or continuous action spaces. In this work, we design a large language model-guided policy modulation framework that leverages LLMs to improve RL training without additional model training or human intervention. We first prompt an LLM to identify critical states from a sub-optimal agent's trajectories. Based on these states, the LLM then provides action suggestions and assigns implicit rewards to guide policy refinement. Experiments across standard RL benchmarks demonstrate that our method outperforms state-of-the-art baselines, highlighting the effectiveness of LLM-based explanations in addressing RL training bottlenecks.
- Abstract(参考訳): 強化学習(RL)は様々な領域で顕著な成功を収めてきたが、複雑なタスクに対する効果的な政策の訓練は依然として困難である。
エージェントはしばしば局所最適に収束し、長期的な報酬を最大化できない。
トレーニングボトルネックを軽減する既存のアプローチは、一般的に2つのカテゴリに分類される。
一 過去の経過から重要状態を識別して政策更新を導出するが、費用がかかる、不確実なモデル訓練に苦しむ自動政策整備
二 人為的フィードバックを用いてエージェントの動作を補正するループ内改良。ただし、これは大規模又は連続的な行動空間を持つ環境においてうまくスケールしない。
本研究では,LLMを利用した大規模言語モデル誘導型政策調整フレームワークを設計し,モデルトレーニングや人的介入を伴わずにRLトレーニングを改善する。
我々はまず,LLMに準最適エージェントの軌道から臨界状態を特定するよう促す。
これらの状態に基づいて、LLMは行動提案を行い、政策改善を導くために暗黙の報酬を割り当てる。
標準RLベンチマークによる実験により,本手法は最先端のベースラインよりも優れており,LLトレーニングボトルネックに対処する上でのLLMに基づく説明の有効性が示された。
関連論文リスト
- Training LLM-Based Agents with Synthetic Self-Reflected Trajectories and Partial Masking [61.61356842567952]
LLMに基づくエージェントトレーニングを改善するための新しい手法STePを提案する。
誤差ステップの反射や補正を含む自己反射軌道を合成する。
実験により,提案手法は3つの代表的なタスクにおいてエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2025-05-26T14:11:12Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - CAMEL: Continuous Action Masking Enabled by Large Language Models for Reinforcement Learning [3.602902292270654]
連続行動空間における強化学習(RL)は、非効率な探索や準最適解への収束のような永続的な課題に遭遇する。
我々は,LLM生成した準最適ポリシーをRLトレーニングパイプラインに統合する新しいフレームワークであるCAMELを提案する。
論文 参考訳(メタデータ) (2025-02-17T15:22:19Z) - Large Language Model driven Policy Exploration for Recommender Systems [50.70228564385797]
静的ユーザデータに基づいてトレーニングされたオフラインRLポリシは、動的オンライン環境にデプロイされた場合、分散シフトに対して脆弱である。
オンラインRLベースのRSも、トレーニングされていないポリシーや不安定なポリシーにユーザをさらけ出すリスクがあるため、運用デプロイメントの課題に直面している。
大規模言語モデル(LLM)は、ユーザー目標と事前学習ポリシーをオフラインで模倣する有望なソリューションを提供する。
LLMから抽出したユーザの嗜好を利用した対話型学習ポリシー(iALP)を提案する。
論文 参考訳(メタデータ) (2025-01-23T16:37:44Z) - Guiding Reinforcement Learning Using Uncertainty-Aware Large Language Models [1.2233495442213964]
大きな言語モデル(LLMs)は、RLサンプルの非効率を軽減し、人間のトレーナーを置き換える可能性のある代替手段を提供する。
LLMアドバイスの信頼性を高めるためにモンテカルロ・ドロップアウトを用いた校正誘導システムにより,この制限に対処する。
また、動的モデル平均エントロピーに基づく新しいRLポリシー形成手法を開発し、ガイダンスの不確実性に応じてLLMがRLポリシーに与える影響を調整する。
論文 参考訳(メタデータ) (2024-11-15T22:00:29Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。