論文の概要: Prior-Guided Diffusion Planning for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.10881v1
- Date: Fri, 16 May 2025 05:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.175563
- Title: Prior-Guided Diffusion Planning for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための事前誘導拡散計画
- Authors: Donghyeon Ki, JunHyeok Oh, Seong-Woong Shim, Byung-Jun Lee,
- Abstract要約: Prior Guidance (PG) は、標準ガウスの拡散モデルを置き換える新しいサンプリングフレームワークである。
PGは拡散モデル自体の費用対効果を伴わない高値軌道を直接生成する。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
- 参考スコア(独自算出の注目度): 4.760537994346813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have recently gained prominence in offline reinforcement learning due to their ability to effectively learn high-performing, generalizable policies from static datasets. Diffusion-based planners facilitate long-horizon decision-making by generating high-quality trajectories through iterative denoising, guided by return-maximizing objectives. However, existing guided sampling strategies such as Classifier Guidance, Classifier-Free Guidance, and Monte Carlo Sample Selection either produce suboptimal multi-modal actions, struggle with distributional drift, or incur prohibitive inference-time costs. To address these challenges, we propose Prior Guidance (PG), a novel guided sampling framework that replaces the standard Gaussian prior of a behavior-cloned diffusion model with a learnable distribution, optimized via a behavior-regularized objective. PG directly generates high-value trajectories without costly reward optimization of the diffusion model itself, and eliminates the need to sample multiple candidates at inference for sample selection. We present an efficient training strategy that applies behavior regularization in latent space, and empirically demonstrate that PG outperforms state-of-the-art diffusion policies and planners across diverse long-horizon offline RL benchmarks.
- Abstract(参考訳): 拡散モデルは、静的データセットから高性能で一般化可能なポリシーを効果的に学習できるため、最近オフラインの強化学習で注目されている。
拡散に基づくプランナーは、リターン最大化目的によって導かれる反復的認知により高品質な軌道を生成することにより、長期的意思決定を容易にする。
しかし、分類誘導、分類自由誘導、モンテカルロサンプル選択のような既存のガイド付きサンプリング戦略は、最適以下のマルチモーダル動作、分散ドリフトとの闘い、あるいは禁止的な推論時間コストを発生させる。
これらの課題に対処するために,行動閉ざされた拡散モデルの標準ガウスを学習可能な分布に置き換え,行動規則化された目的によって最適化する,新しいガイド付きサンプリングフレームワークであるPrior Guidance(PG)を提案する。
PGは拡散モデル自体の費用対効果を伴わない高値軌道を直接生成し、サンプル選択のために複数の候補をサンプリングする必要がない。
我々は,潜時空間における行動規則化を適用した効率的なトレーニング戦略を提案し,PGが多種多種多種多種多種多種多様オフラインRLベンチマークにおいて最先端拡散ポリシーやプランナーより優れていることを実証的に示す。
関連論文リスト
- Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。
MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。
D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-03-26T07:24:34Z) - DPR: Diffusion Preference-based Reward for Offline Reinforcement Learning [30.654668373387214]
拡散選好に基づく報酬獲得法(DPR)を提案する。
DPRは拡散モデルを用いて状態-作用対の選好分布を直接モデル化し、これらの分布から報酬を識別することができる。
本手法を既存のオフライン強化学習アルゴリズムに適用し,拡散型報酬獲得手法が従来法およびトランスフォーマー法より優れていることを示す。
論文 参考訳(メタデータ) (2025-03-03T03:49:38Z) - Test-time Alignment of Diffusion Models without Reward Over-optimization [8.981605934618349]
拡散モデルは生成的タスクにおいて優れているが、特定の目的とそれらを整合させることは依然として困難である。
そこで本研究では,SMC(Sequential Monte Carlo)をベースとした学習自由なテスト時間手法を提案する。
単一逆最適化、多目的シナリオ、オンラインブラックボックス最適化において、その効果を実証する。
論文 参考訳(メタデータ) (2025-01-10T09:10:30Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。