論文の概要: Diffusion Policies with Value-Conditional Optimization for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.08922v1
- Date: Thu, 13 Nov 2025 01:18:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.30255
- Title: Diffusion Policies with Value-Conditional Optimization for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための価値概念最適化を伴う拡散政策
- Authors: Yunchang Ma, Tenglong Liu, Yixing Lan, Xin Yin, Changxin Zhang, Xinglong Zhang, Xin Xu,
- Abstract要約: 本稿では,Deffusion Policy with Value-conditional Optimization (DIVO)を提案する。
DIVOは、効率的な政策改善を促進しつつ、高品質で広範囲に分布する状態-作用サンプルを生成する。
D4RLベンチマーク上でDIVOを評価し、最先端のベースラインと比較する。
- 参考スコア(独自算出の注目度): 11.523827300607541
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In offline reinforcement learning, value overestimation caused by out-of-distribution (OOD) actions significantly limits policy performance. Recently, diffusion models have been leveraged for their strong distribution-matching capabilities, enforcing conservatism through behavior policy constraints. However, existing methods often apply indiscriminate regularization to redundant actions in low-quality datasets, resulting in excessive conservatism and an imbalance between the expressiveness and efficiency of diffusion modeling. To address these issues, we propose DIffusion policies with Value-conditional Optimization (DIVO), a novel approach that leverages diffusion models to generate high-quality, broadly covered in-distribution state-action samples while facilitating efficient policy improvement. Specifically, DIVO introduces a binary-weighted mechanism that utilizes the advantage values of actions in the offline dataset to guide diffusion model training. This enables a more precise alignment with the dataset's distribution while selectively expanding the boundaries of high-advantage actions. During policy improvement, DIVO dynamically filters high-return-potential actions from the diffusion model, effectively guiding the learned policy toward better performance. This approach achieves a critical balance between conservatism and explorability in offline RL. We evaluate DIVO on the D4RL benchmark and compare it against state-of-the-art baselines. Empirical results demonstrate that DIVO achieves superior performance, delivering significant improvements in average returns across locomotion tasks and outperforming existing methods in the challenging AntMaze domain, where sparse rewards pose a major difficulty.
- Abstract(参考訳): オフライン強化学習では、オフ・オブ・ディストリビューション(OOD)による価値過大評価により、政策性能が著しく低下する。
近年、拡散モデルは、その強い分布マッチング能力に活用され、行動政策制約を通じて保守主義を強制している。
しかし、既存の手法では、低品質なデータセットにおける冗長な動作に対して非差別的な正規化を適用することが多く、過剰な保守主義と拡散モデリングの表現性と効率の不均衡をもたらす。
これらの問題に対処するために,拡散モデルを利用して高品質な分散状態-作用サンプルを生成する新しい手法であるDeffusion Policy with Value-conditional Optimization (DIVO)を提案する。
具体的には、オフラインデータセットにおけるアクションの利点値を利用して拡散モデルのトレーニングをガイドするバイナリ重み付けメカニズムを導入している。
これにより、データセットの分布をより正確に調整でき、高いアドバンテージアクションの境界を選択的に拡張できる。
政策改善の過程で、DIVOは拡散モデルから高戻りポテンシャルのアクションを動的にフィルタリングし、学習したポリシーを性能向上に向けて効果的に導く。
このアプローチは、オフラインRLにおける保守主義と探索可能性の間の重要なバランスを実現する。
D4RLベンチマーク上でDIVOを評価し、最先端のベースラインと比較する。
実証的な結果は、DIVOが優れたパフォーマンスを達成し、ローコモーションタスクの平均リターンを大幅に改善し、スパース報酬が大きな困難を生じさせる、挑戦的なAntMazeドメインにおける既存のメソッドよりも優れていることを示している。
関連論文リスト
- Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning [19.533619091287676]
オフライン強化学習のための優先行動最適化拡散政策を提案する。
特に、表現的条件拡散モデルを用いて、行動ポリシーの多様な分布を表現する。
実験により,提案手法は従来のオフラインRL法と比較して,競争力や性能に優れることを示した。
論文 参考訳(メタデータ) (2024-05-29T03:19:59Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。