論文の概要: Contractive Diffusion Policies: Robust Action Diffusion via Contractive Score-Based Sampling with Differential Equations
- arxiv url: http://arxiv.org/abs/2601.01003v1
- Date: Fri, 02 Jan 2026 23:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.93408
- Title: Contractive Diffusion Policies: Robust Action Diffusion via Contractive Score-Based Sampling with Differential Equations
- Title(参考訳): 契約拡散政策:微分方程式を用いた契約的スコアベースサンプリングによるロバスト行動拡散
- Authors: Amin Abyaneh, Charlotte Morissette, Mohamad H. Danesh, Anas El Houssaini, David Meger, Gregory Dudek, Hsiu-Chin Lin,
- Abstract要約: 収縮拡散ポリシ(CDPs)は拡散サンプリング力学において収縮挙動を誘導する。
CDPはベースラインポリシーよりも優れており、データ不足下では顕著なメリットがある。
- 参考スコア(独自算出の注目度): 19.77729438305312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion policies have emerged as powerful generative models for offline policy learning, whose sampling process can be rigorously characterized by a score function guiding a Stochastic Differential Equation (SDE). However, the same score-based SDE modeling that grants diffusion policies the flexibility to learn diverse behavior also incurs solver and score-matching errors, large data requirements, and inconsistencies in action generation. While less critical in image generation, these inaccuracies compound and lead to failure in continuous control settings. We introduce Contractive Diffusion Policies (CDPs) to induce contractive behavior in the diffusion sampling dynamics. Contraction pulls nearby flows closer to enhance robustness against solver and score-matching errors while reducing unwanted action variance. We develop an in-depth theoretical analysis along with a practical implementation recipe to incorporate CDPs into existing diffusion policy architectures with minimal modification and computational cost. We evaluate CDPs for offline learning by conducting extensive experiments in simulation and real-world settings. Across benchmarks, CDPs often outperform baseline policies, with pronounced benefits under data scarcity.
- Abstract(参考訳): 拡散ポリシはオフライン政策学習のための強力な生成モデルとして現れており、サンプリングプロセスは確率微分方程式(SDE)を導くスコア関数によって厳格に特徴付けられる。
しかし、拡散政策に多様な振る舞いを学習する柔軟性を与えるのと同じスコアベースのSDEモデリングは、解法やスコアマッチングエラー、大規模なデータ要求、アクション生成の不整合も引き起こす。
画像生成にはあまり重要でないが、これらの不正確さは複雑であり、継続的な制御設定で失敗につながる。
本稿では,拡散サンプリング力学における収縮挙動を誘導するために,CDP(Contractive Diffusion Policies)を導入する。
収縮は近くの流れを引き寄せ、解決器に対する堅牢性を高め、不必要な動作分散を低減しながらスコアマッチングエラーを発生させる。
我々は、CDPを最小限の変更と計算コストで既存の拡散政策アーキテクチャに組み込むための実践的な実装レシピとともに、詳細な理論解析を開発する。
シミュレーションや実環境設定で広範囲な実験を行うことで,オフライン学習のためのCDPを評価した。
ベンチマーク全体では、CDPはベースラインポリシーよりも優れており、データ不足下では顕著なメリットがある。
関連論文リスト
- One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Generative Latent Neural PDE Solver using Flow Matching [8.397730500554047]
低次元の潜伏空間にPDE状態を埋め込んだPDEシミュレーションのための潜伏拡散モデルを提案する。
我々のフレームワークは、オートエンコーダを使用して、異なるタイプのメッシュを統一された構造化潜在グリッドにマッピングし、複雑なジオメトリをキャプチャします。
数値実験により,提案モデルは,精度と長期安定性の両方において,決定論的ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:44:28Z) - Closure Discovery for Coarse-Grained Partial Differential Equations Using Grid-based Reinforcement Learning [2.9611509639584304]
本稿では,グリッドベース強化学習を用いて,未解決PDEにおけるクロージャの同定のための体系的アプローチを提案する。
我々は, 対流方程式とバーガース方程式の数値解を用いて, フレームワークの機能と限界を実証する。
論文 参考訳(メタデータ) (2024-02-01T19:41:04Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。