論文の概要: Offline Reinforcement Learning with Generative Trajectory Policies
- arxiv url: http://arxiv.org/abs/2510.11499v1
- Date: Mon, 13 Oct 2025 15:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.420094
- Title: Offline Reinforcement Learning with Generative Trajectory Policies
- Title(参考訳): 生成軌道ポリシーを用いたオフライン強化学習
- Authors: Xinsong Feng, Leshu Tang, Chenan Wang, Haipeng Chen,
- Abstract要約: 生成モデルは、オフラインの強化学習のための強力なポリシーのクラスとして登場した。
遅くて反復的なモデルは計算コストが高く、一貫性ポリシのような高速で単一ステップのモデルは、しばしば性能の低下に悩まされる。
提案するジェネレーティブ・トラジェクトリ・ポリティクス(GTP)は,基礎となるODEのソリューションマップ全体を学ぶための,より汎用的な政策パラダイムである。
- 参考スコア(独自算出の注目度): 6.501269050121785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have emerged as a powerful class of policies for offline reinforcement learning (RL) due to their ability to capture complex, multi-modal behaviors. However, existing methods face a stark trade-off: slow, iterative models like diffusion policies are computationally expensive, while fast, single-step models like consistency policies often suffer from degraded performance. In this paper, we demonstrate that it is possible to bridge this gap. The key to moving beyond the limitations of individual methods, we argue, lies in a unifying perspective that views modern generative models, including diffusion, flow matching, and consistency models, as specific instances of learning a continuous-time generative trajectory governed by an Ordinary Differential Equation (ODE). This principled foundation provides a clearer design space for generative policies in RL and allows us to propose Generative Trajectory Policies (GTPs), a new and more general policy paradigm that learns the entire solution map of the underlying ODE. To make this paradigm practical for offline RL, we further introduce two key theoretically principled adaptations. Empirical results demonstrate that GTP achieves state-of-the-art performance on D4RL benchmarks - it significantly outperforms prior generative policies, achieving perfect scores on several notoriously hard AntMaze tasks.
- Abstract(参考訳): 生成モデルは、複雑なマルチモーダルな振る舞いを捉える能力により、オフライン強化学習(RL)のための強力なポリシーのクラスとして登場した。
しかし、既存の方法は大きなトレードオフに直面している: 拡散ポリシーのような遅く反復的なモデルは計算コストが高く、一貫性ポリシーのような高速で単一ステップのモデルは、しばしば性能の低下に悩まされる。
本稿では,このギャップを埋めることが可能であることを実証する。
個々の手法の限界を超えて進むための鍵は、拡散、フローマッチング、一貫性モデルを含む近代的な生成モデルを、通常の微分方程式(ODE)によって支配される連続時間生成軌道を学習する特定の事例として見る統一的な視点にある、と我々は主張する。
この原則は、RLにおける生成ポリシーのためのより明確な設計空間を提供し、基礎となるODEのソリューションマップ全体を学ぶための、新しいより一般的なポリシーパラダイムである生成トラジェクトリ・ポリシー(GTP)を提案する。
このパラダイムをオフラインRLに実用的なものにするために、我々はさらに2つの重要な理論的な適応を導入する。
実証的な結果は、GTPがD4RLベンチマークで最先端のパフォーマンスを達成していることを示している。
関連論文リスト
- Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T21:53:36Z) - Revisiting Generative Policies: A Simpler Reinforcement Learning Algorithmic Perspective [31.02078397091536]
我々は、様々な生成的政策訓練と展開技術を比較し、分析する。
既存のトレーニング目標を2つのカテゴリに分類します。
実験により,提案手法はオフラインRLデータセット上での最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-12-02T08:06:07Z) - Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Consistency Models as a Rich and Efficient Policy Class for Reinforcement Learning [25.81859481634996]
拡散モデルのようなスコアベース生成モデルは、画像生成から強化学習(RL)へのマルチモーダルデータのモデリングに有効であることが証明された。
本稿では,3つの典型的なRL設定に対するアクタ批判型アルゴリズムを用いて,一貫性モデルを効率的かつ表現力のあるポリシー表現として適用することを提案する。
論文 参考訳(メタデータ) (2023-09-29T05:05:54Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。