論文の概要: Advantage-Guided Diffusion for Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.09035v1
- Date: Fri, 10 Apr 2026 06:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.734047
- Title: Advantage-Guided Diffusion for Model-Based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習のためのアドバンテージガイド付き拡散
- Authors: Daniele Foffano, Arvid Eriksson, David Broman, Karl H. Johansson, Alexandre Proutiere,
- Abstract要約: MBRLのためのアドバンテージ誘導拡散は、エージェントの利点推定を用いて逆拡散過程を制御する。
本稿では,AGD-MBRLから発生する軌道が,非誘導拡散モデルと比較して改善された方針に従うことを示す。
- 参考スコア(独自算出の注目度): 38.18017161791996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (MBRL) with autoregressive world models suffers from compounding errors, whereas diffusion world models mitigate this by generating trajectory segments jointly. However, existing diffusion guides are either policy-only, discarding value information, or reward-based, which becomes myopic when the diffusion horizon is short. We introduce Advantage-Guided Diffusion for MBRL (AGD-MBRL), which steers the reverse diffusion process using the agent's advantage estimates so that sampling concentrates on trajectories expected to yield higher long-term return beyond the generated window. We develop two guides: (i) Sigmoid Advantage Guidance (SAG) and (ii) Exponential Advantage Guidance (EAG). We prove that a diffusion model guided through SAG or EAG allows us to perform reweighted sampling of trajectories with weights increasing in state-action advantage-implying policy improvement under standard assumptions. Additionally, we show that the trajectories generated from AGD-MBRL follow an improved policy (that is, with higher value) compared to an unguided diffusion model. AGD integrates seamlessly with PolyGRAD-style architectures by guiding the state components while leaving action generation policy-conditioned, and requires no change to the diffusion training objective. On MuJoCo control tasks (HalfCheetah, Hopper, Walker2D and Reacher), AGD-MBRL improves sample efficiency and final return over PolyGRAD, an online Diffuser-style reward guide, and model-free baselines (PPO/TRPO), in some cases by a margin of 2x. These results show that advantage-aware guidance is a simple, effective remedy for short-horizon myopia in diffusion-model MBRL.
- Abstract(参考訳): 自己回帰的世界モデルを用いたモデルベース強化学習(MBRL)は複合的エラーに悩まされる一方、拡散的世界モデルは軌道セグメントを共同生成することでこれを緩和する。
しかし、既存の拡散ガイドはポリシーのみであり、価値情報を捨てるか、あるいは報酬ベースであり、拡散地平線が短いとミオピックになる。
本稿では,MBRL (Advantage-Guided Diffusion for MBRL) について紹介する。これはエージェントの利点推定値を用いて逆拡散過程を制御し,サンプリングが生成したウィンドウを超える長期的リターンを期待できる軌跡に集中できるようにする。
私たちは2つのガイドを開発します。
(i)シグモイド・アドバンテージ・ガイダンス(SAG)及び
(II)指数アドバンテージガイダンス(EAG)
SAG や EAG を通じて導かれる拡散モデルにより、標準的な仮定の下での状態-作用の有利な政策改善の重み付けによりトラジェクトリの再加重サンプリングを行うことができることを示す。
さらに, AGD-MBRL から発生する軌道は, 誘導拡散モデルと比較して, 改良されたポリシー(すなわち, 高い値)に従うことを示す。
AGDは、アクション生成ポリシーを条件に残しながら状態コンポーネントを誘導することで、PolyGRADスタイルのアーキテクチャとシームレスに統合する。
MuJoCoコントロールタスク(HalfCheetah、Hopper、Walker2D、Reacher)では、AGD-MBRLは、オンラインディフューザースタイルの報酬ガイドであるPolyGRADよりもサンプル効率と最終的なリターンを改善し、場合によってはモデルフリーベースライン(PPO/TRPO)を2倍に改善する。
これらの結果から,拡散モデルMBRLにおける短軸ミオピアに対するアドバンテージ・アウェア・ガイダンスは,簡便かつ効果的な治療法であることが示唆された。
関連論文リスト
- MAR-GRPO: Stabilized GRPO for AR-diffusion Hybrid Image Generation [24.618644100413018]
強化学習(RL)は自己回帰(AR)と拡散モデルにうまく応用されている。
RLをハイブリッドAR拡散フレームワークに拡張することは、インターリーブ推論とノイズの多いログ確率推定のために依然として難しい。
本研究では,マスク付き自己回帰モデル(MAR)について検討し,拡散ヘッドが運動学のトレーニングにおいて重要な役割を担っていることを示す。
論文 参考訳(メタデータ) (2026-04-08T11:30:35Z) - Data-regularized Reinforcement Learning for Diffusion Models at Scale [99.01056178660538]
データ正規化拡散強化学習(Data-regularized Diffusion Reinforcement Learning, DDRL)は, フォワードKLの分散を利用して, 政策を非政治データ分布に固定する新しいフレームワークである。
100万時間以上のGPU実験と1万回の二重盲検評価により、DDRLは、RLで見られる報酬ハックを緩和しながら、報酬を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-12-03T23:45:07Z) - Plug-and-Play Prompt Refinement via Latent Feedback for Diffusion Model Alignment [54.17386822940477]
PromptLoopはプラグインとプレイの強化学習フレームワークで、遅延フィードバックをステップワイドな即興改善に組み込む。
この設計は、プロンプトベースのアライメントの柔軟性と一般性を維持しながら、拡散RLアプローチと構造的な類似性を実現する。
論文 参考訳(メタデータ) (2025-10-01T02:18:58Z) - DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。
提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文 参考訳(メタデータ) (2025-05-21T17:44:37Z) - Prior-Guided Diffusion Planning for Offline Reinforcement Learning [5.819784482811376]
Prior Guidance(PG)は、行動閉ざされた拡散モデルに先立って標準ガウスを置き換えた新しいサンプリングフレームワークである。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
論文 参考訳(メタデータ) (2025-05-16T05:39:02Z) - Diffusion Classifier-Driven Reward for Offline Preference-based Reinforcement Learning [45.95668702930697]
拡散選好に基づく報酬獲得法(DPR)を提案する。
DPRは、段階的嗜好に基づく報酬獲得を二項分類として直接扱い、拡散分類器の堅牢性を利用して段階的報酬を識別的に推測する。
また,Diffusion Preference-based Reward (C-DPR)を提案する。
論文 参考訳(メタデータ) (2025-03-03T03:49:38Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。