論文の概要: Conditioning Matters: Training Diffusion Policies is Faster Than You Think
- arxiv url: http://arxiv.org/abs/2505.11123v1
- Date: Fri, 16 May 2025 11:14:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.779333
- Title: Conditioning Matters: Training Diffusion Policies is Faster Than You Think
- Title(参考訳): コンディショニングの課題:拡散政策のトレーニングは、あなたが考えるよりも速い
- Authors: Zibin Dong, Yicheng Liu, Yinchuan Li, Hang Zhao, Jianye Hao,
- Abstract要約: 拡散政策は、視覚言語アクション(VLA)モデルを構築するための主流パラダイムとして登場した。
条件拡散政策訓練の基本的な課題は, 生成条件の識別が困難である場合, 訓練対象が限界行動分布をモデル化することである。
条件に依存しない条件付きフローマッチングにおけるソース分布を変更するソリューションであるCocosを提案する。
- 参考スコア(独自算出の注目度): 69.31534053485711
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion policies have emerged as a mainstream paradigm for building vision-language-action (VLA) models. Although they demonstrate strong robot control capabilities, their training efficiency remains suboptimal. In this work, we identify a fundamental challenge in conditional diffusion policy training: when generative conditions are hard to distinguish, the training objective degenerates into modeling the marginal action distribution, a phenomenon we term loss collapse. To overcome this, we propose Cocos, a simple yet general solution that modifies the source distribution in the conditional flow matching to be condition-dependent. By anchoring the source distribution around semantics extracted from condition inputs, Cocos encourages stronger condition integration and prevents the loss collapse. We provide theoretical justification and extensive empirical results across simulation and real-world benchmarks. Our method achieves faster convergence and higher success rates than existing approaches, matching the performance of large-scale pre-trained VLAs using significantly fewer gradient steps and parameters. Cocos is lightweight, easy to implement, and compatible with diverse policy architectures, offering a general-purpose improvement to diffusion policy training.
- Abstract(参考訳): 拡散政策は、視覚言語アクション(VLA)モデルを構築するための主流パラダイムとして登場した。
強力なロボット制御能力を示すが、訓練効率は依然として準最適である。
本研究では,条件拡散政策訓練における基本的課題を,生成条件の識別が困難な場合,学習対象が限界行動分布をモデル化し,損失崩壊と呼ぶ現象をモデル化する。
これを解決するために、条件付きフローマッチングにおけるソース分布を条件依存に修正する、単純だが汎用的なソリューションであるCocosを提案する。
条件入力から抽出したセマンティクスのソース分布をアンロックすることで、Cocosはより強い条件統合を促進し、損失の崩壊を防ぐ。
シミュレーションと実世界のベンチマークで理論的正当化と広範な実験結果を提供する。
提案手法は既存の手法よりも高速な収束と高い成功率を実現し,より少ない勾配ステップとパラメータを用いて,大規模事前学習VLAの性能をマッチングする。
Cocosは軽量で実装が容易で、多様なポリシーアーキテクチャと互換性があり、拡散政策トレーニングに対する汎用的な改善を提供する。
関連論文リスト
- Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning [13.163511229897667]
オフラインの強化学習では、価値関数の過大評価を防ぐために、配布外動作を管理する必要がある。
拡散雑音回帰問題としてクルバック・リブラー (KL) 制約ポリシーの繰り返しを定式化する拡散アクタ・クリティカル (DAC) を提案する。
提案手法はD4RLベンチマークで評価され,ほぼすべての環境において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-31T00:41:04Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Don't Start from Scratch: Behavioral Refinement via Interpolant-based Policy Diffusion [16.44141792109178]
拡散モデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学習する。
学習対象のポリシーはガウスとは大きく異なり、少数の拡散ステップを使用すると性能が低下する可能性がある。
提案手法は,情報ソースポリシーの利点を示す理論的結果,新しい方法,実証的な知見の両方に寄与する。
論文 参考訳(メタデータ) (2024-02-25T12:19:21Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。