論文の概要: LLM-Driven Policy Diffusion: Enhancing Generalization in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.00347v1
- Date: Sat, 30 Aug 2025 04:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.188678
- Title: LLM-Driven Policy Diffusion: Enhancing Generalization in Offline Reinforcement Learning
- Title(参考訳): LLM-Driven Policy Diffusion:オフライン強化学習における一般化の促進
- Authors: Hanping Zhang, Yuhong Guo,
- Abstract要約: 強化学習(RL)はその強力な意思決定能力で知られ、様々な現実のシナリオに広く適用されている。
オフラインデータの制限のため、RLエージェントは新しいタスクや環境に一般化するのに苦労することが多い。
LLM-Driven Policy Diffusion (LLMDPD) は,タスク固有のプロンプトを用いたオフラインRLの一般化を促進する新しい手法である。
- 参考スコア(独自算出の注目度): 23.628360655654507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is known for its strong decision-making capabilities and has been widely applied in various real-world scenarios. However, with the increasing availability of offline datasets and the lack of well-designed online environments from human experts, the challenge of generalization in offline RL has become more prominent. Due to the limitations of offline data, RL agents trained solely on collected experiences often struggle to generalize to new tasks or environments. To address this challenge, we propose LLM-Driven Policy Diffusion (LLMDPD), a novel approach that enhances generalization in offline RL using task-specific prompts. Our method incorporates both text-based task descriptions and trajectory prompts to guide policy learning. We leverage a large language model (LLM) to process text-based prompts, utilizing its natural language understanding and extensive knowledge base to provide rich task-relevant context. Simultaneously, we encode trajectory prompts using a transformer model, capturing structured behavioral patterns within the underlying transition dynamics. These prompts serve as conditional inputs to a context-aware policy-level diffusion model, enabling the RL agent to generalize effectively to unseen tasks. Our experimental results demonstrate that LLMDPD outperforms state-of-the-art offline RL methods on unseen tasks, highlighting its effectiveness in improving generalization and adaptability in diverse settings.
- Abstract(参考訳): 強化学習(RL)はその強力な意思決定能力で知られ、様々な現実のシナリオに広く適用されている。
しかしながら、オフラインデータセットの可用性の向上と、人間の専門家による十分に設計されたオンライン環境の欠如により、オフラインRLの一般化の課題がより顕著になっている。
オフラインデータの制限のため、収集された経験のみに訓練されたRLエージェントは、しばしば新しいタスクや環境に一般化するのに苦労する。
この課題に対処するために,タスク固有のプロンプトを用いてオフラインRLの一般化を促進する新しいアプローチであるLLMDPD(LLM-Driven Policy Diffusion)を提案する。
提案手法は,テキストベースのタスク記述とトラジェクティブプロンプトの両方を取り入れて,政策学習を指導する。
我々は、テキストベースのプロンプトを処理するために、大きな言語モデル(LLM)を活用し、その自然言語理解と広範囲な知識ベースを利用して、タスク関連コンテキストをリッチに提供します。
同時に、トランスモデルを用いてトラジェクトリプロンプトを符号化し、基礎となる遷移力学における構造的挙動パターンをキャプチャする。
これらのプロンプトは、文脈対応ポリシーレベル拡散モデルへの条件入力として機能し、RLエージェントは、目に見えないタスクに効果的に一般化することができる。
実験の結果,LLMDPDは未確認タスクにおいて,最先端のオフラインRL手法よりも優れており,多種多様な設定における一般化と適応性の向上に有効であることが示された。
関連論文リスト
- Prompt-Tuned LLM-Augmented DRL for Dynamic O-RAN Network Slicing [5.62872273155603]
大規模言語モデル(LLM)は、無秩序なネットワークフィードバックを意味のある潜在表現に構造化する。
O-RANスライシングでは、SNR、パワーレベル、スループットといった概念が意味的に関連している。
学習可能なプロンプトをLLM拡張DRLフレームワークに統合した文脈化に基づく適応手法を提案する。
論文 参考訳(メタデータ) (2025-05-31T14:12:56Z) - The Synergy of LLMs & RL Unlocks Offline Learning of Generalizable Language-Conditioned Policies with Low-fidelity Data [50.544186914115045]
TEDUOは、シンボリック環境におけるオフライン言語条件のポリシー学習のための、新しいトレーニングパイプラインである。
まず、オフラインデータセットをよりリッチなアノテーションで拡張する自動化ツールとして、次に、一般化可能な命令フォローエージェントとして使用します。
論文 参考訳(メタデータ) (2024-12-09T18:43:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - Contextual Transformer for Offline Meta Reinforcement Learning [16.587320914107128]
シーケンスモデリングに基づくオフライン強化学習(オフラインRL)アルゴリズムにおいて、プロンプトがどのように改善できるかを示す。
本稿では、条件付きポリシー生成を導くために、入力とコンテキストベクトル列をテキスト化するオフラインRLのプロンプトチューニングを提案する。
フレームワークをメタRL設定に拡張し,CMT(Contextual Meta Transformer)を提案する。
論文 参考訳(メタデータ) (2022-11-15T10:00:14Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。