Fugu-MT 論文翻訳(概要): Modular Diffusion Policy Training: Decoupling and Recombining Guidance and Diffusion for Offline RL

論文の概要: Modular Diffusion Policy Training: Decoupling and Recombining Guidance and Diffusion for Offline RL

arxiv url: http://arxiv.org/abs/2506.03154v1
Date: Mon, 19 May 2025 22:51:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-08 12:40:08.683021
Title: Modular Diffusion Policy Training: Decoupling and Recombining Guidance and Diffusion for Offline RL
Title（参考訳）: モジュール拡散政策トレーニング:オフラインRLにおける誘導と拡散の分離と再結合
Authors: Zhaoyang Chen, Cody Fleming,
Abstract要約: 本稿では,誘導モジュールを拡散モデルから分離するモジュラートレーニング手法を提案する。個別に訓練された2つのガイダンスモデルを適用すると、1つはトレーニング中に、もう1つは推論中に、正規化されたスコアの分散を著しく減少させることができる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Classifier free guidance has shown strong potential in diffusion-based reinforcement learning. However, existing methods rely on joint training of the guidance module and the diffusion model, which can be suboptimal during the early stages when the guidance is inaccurate and provides noisy learning signals. In offline RL, guidance depends solely on offline data: observations, actions, and rewards, and is independent of the policy module's behavior, suggesting that joint training is not required. This paper proposes modular training methods that decouple the guidance module from the diffusion model, based on three key findings: Guidance Necessity: We explore how the effectiveness of guidance varies with the training stage and algorithm choice, uncovering the roles of guidance and diffusion. A lack of good guidance in the early stage presents an opportunity for optimization. Guidance-First Diffusion Training: We introduce a method where the guidance module is first trained independently as a value estimator, then frozen to guide the diffusion model using classifier-free reward guidance. This modularization reduces memory usage, improves computational efficiency, and enhances both sample efficiency and final performance. Cross-Module Transferability: Applying two independently trained guidance models, one during training and the other during inference, can significantly reduce normalized score variance (e.g., reducing IQR by 86%). We show that guidance modules trained with one algorithm (e.g., IDQL) can be directly reused with another (e.g., DQL), with no additional training required, demonstrating baseline-level performance as well as strong modularity and transferability. We provide theoretical justification and empirical validation on bullet D4RL benchmarks. Our findings suggest a new paradigm for offline RL: modular, reusable, and composable training pipelines.
Abstract（参考訳）: 分類自由指導は拡散に基づく強化学習において強い可能性を示している。しかし、既存の手法は誘導モジュールと拡散モデルの共同訓練に依存しており、誘導が不正確でノイズの多い学習信号を提供する早期に最適である。オフラインRLでは、ガイダンスはオフラインデータ(観察、行動、報酬)にのみ依存しており、ポリシーモジュールの動作とは独立しており、共同トレーニングは必要ないことを示唆している。本稿では,誘導モジュールを拡散モデルから分離するモジュラートレーニング手法を提案する。初期段階での優れたガイダンスの欠如は、最適化の機会を提供する。誘導第一拡散訓練: 誘導モジュールはまず値推定器として独立に訓練され、次にフリーズして、分類器なし報酬誘導を用いて拡散モデルを誘導する手法を導入する。このモジュール化によりメモリ使用量が少なくなり、計算効率が向上し、サンプル効率と最終的な性能が向上する。クロスモジュール転送可能性: トレーニング中と推論中の2つの独立したガイダンスモデルを適用することで、正規化スコアのばらつきを著しく低減できる(例: IQRを86%削減する)。 1つのアルゴリズム(例:IDQL)でトレーニングされたガイダンスモジュールは、他のアルゴリズム(例:DQL)と直接再利用できるが、追加のトレーニングは不要である。弾頭D4RLベンチマークの理論的正当性と実証的検証を行う。この結果から,オフラインRLの新たなパラダイムとして,モジュール型,再利用可能な,構成可能なトレーニングパイプラインが示唆された。

関連論文リスト

Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文参考訳（メタデータ） (2025-05-29T14:06:50Z)
SeRL: Self-Play Reinforcement Learning for Large Language Models with Limited Data [65.56911325914582]
限られた初期データを用いたLarge Language Models (LLM) トレーニングのブートストラップとして,SeRL(Se-play Reinforcement Learning)を提案する。提案したSeRLは、その結果よりも優れ、検証可能な報酬を持つ高品質なデータと同等の性能が得られる。
論文参考訳（メタデータ） (2025-05-25T13:28:04Z)
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training [15.74527731339671]
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
論文参考訳（メタデータ） (2025-04-13T20:10:27Z)
Variational Control for Guidance in Diffusion Models [19.51536406897083]
本稿では,DTM(Diffusion Trajectory Matching)を提案する。 DTMは幅広いガイダンス手法を統一し、新しいインスタンス化を可能にする。本稿では, 線形, 非線形, 盲点の逆問題に対して, 最先端の結果を得る新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-06T00:24:39Z)
Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。 PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文参考訳（メタデータ） (2024-07-18T17:35:32Z)
Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文参考訳（メタデータ） (2024-06-17T22:00:26Z)
Dreamguider: Improved Training free Diffusion-based Conditional Generation [31.68823843900196]
Dreamguiderは、拡散ネットワークを介して計算量の多いバックプロパゲーションを伴わない推論時ガイダンスを可能にする手法である。提案するモジュールの有効性を示すために,複数のデータセットやモデルにまたがる複数のタスクに対してDreamguiderを用いて実験を行った。
論文参考訳（メタデータ） (2024-06-04T17:59:32Z)
Direct Language Model Alignment from Online AI Feedback [78.40436231613754]
嗜好からの直接アライメント(DAP)手法は、人間フィードバックからの強化学習(RLHF)の効果的な代替手段として最近登場した。本研究では,オンラインフィードバックが鍵であり,DAP法の改善を図っている。オンラインAIフィードバック(OAIF)はLLMをアノテータとして使用し、トレーニング毎に現在のモデルから2つのレスポンスをサンプリングし、LLMアノテータにどちらが好まれるかを選択し、オンラインフィードバックを提供する。
論文参考訳（メタデータ） (2024-02-07T12:31:13Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
Elucidating The Design Space of Classifier-Guided Diffusion Generation [17.704873767509557]
そこで本研究では,市販の分類器をトレーニング不要の手法で活用することにより,既存の指導方式よりも大幅な性能向上を実現することができることを示す。提案手法は大きな可能性を秘めており,テキスト・画像生成タスクに容易にスケールアップできる。
論文参考訳（メタデータ） (2023-10-17T14:34:58Z)
Unsupervised Discovery of Interpretable Directions in h-space of Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文参考訳（メタデータ） (2023-10-15T18:44:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。