論文の概要: Symmetry-Aware Steering of Equivariant Diffusion Policies: Benefits and Limits
- arxiv url: http://arxiv.org/abs/2512.11345v1
- Date: Fri, 12 Dec 2025 07:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.693387
- Title: Symmetry-Aware Steering of Equivariant Diffusion Policies: Benefits and Limits
- Title(参考訳): 等変拡散反応の対称性を考慮したステアリング--効果と限界
- Authors: Minwoo Park, Junwoo Chang, Jongeun Choi, Roberto Horowitz,
- Abstract要約: 等変拡散ポリシー(EDPs)は、拡散モデルの生成的表現性と、幾何学的対称性によって得られる強い一般化とサンプル効率を組み合わせる。
本研究では, ステアリング過程における対称性の活用により, サンプル効率の大幅な向上, 値のばらつきの防止, 極めて限られた実演からEDPを訓練しても, 強力な政策改善が達成できることを示す。
- 参考スコア(独自算出の注目度): 5.63508094975827
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Equivariant diffusion policies (EDPs) combine the generative expressivity of diffusion models with the strong generalization and sample efficiency afforded by geometric symmetries. While steering these policies with reinforcement learning (RL) offers a promising mechanism for fine-tuning beyond demonstration data, directly applying standard (non-equivariant) RL can be sample-inefficient and unstable, as it ignores the symmetries that EDPs are designed to exploit. In this paper, we theoretically establish that the diffusion process of an EDP is equivariant, which in turn induces a group-invariant latent-noise MDP that is well-suited for equivariant diffusion steering. Building on this theory, we introduce a principled symmetry-aware steering framework and compare standard, equivariant, and approximately equivariant RL strategies through comprehensive experiments across tasks with varying degrees of symmetry. While we identify the practical boundaries of strict equivariance under symmetry breaking, we show that exploiting symmetry during the steering process yields substantial benefits-enhancing sample efficiency, preventing value divergence, and achieving strong policy improvements even when EDPs are trained from extremely limited demonstrations.
- Abstract(参考訳): 等変拡散ポリシー(EDPs)は、拡散モデルの生成的表現性と、幾何学的対称性によって得られる強い一般化とサンプル効率を組み合わせる。
これらのポリシーを強化学習(RL)で操縦することは、実証データを超えて微調整を行うための有望なメカニズムを提供する一方で、標準(非同変)のRLを直接適用することは、EDPが活用するように設計された対称性を無視しているため、サンプル非効率で不安定である。
本稿では、EDPの拡散過程が同変であることを理論的に証明し、同変拡散ステアリングに適した群不変潜在雑音MPPを誘導する。
この理論に基づいて、原理的対称性を考慮した操舵フレームワークを導入し、対称性の度合いの異なるタスクを網羅した総合的な実験を通して、標準、等変、およびほぼ同変のRL戦略を比較する。
対称破断下での厳密な均衡の実践的境界を同定する一方で, 操舵過程における対称性の活用は, サンプル効率の向上, 値のばらつきの防止, 極めて限られた実演からEDPを訓練しても, 強力な政策改善を達成できることを示す。
関連論文リスト
- Partially Equivariant Reinforcement Learning in Symmetry-Breaking Environments [10.122552307413711]
グループ対称性は強化学習(RL)に強力な誘導バイアスを与える
グループ対称性は強化学習(RL)に強力な誘導バイアスを与える
論文 参考訳(メタデータ) (2025-11-30T14:41:08Z) - Reinforcement Learning Using known Invariances [54.91261509214309]
本稿では、既知のグループ対称性をカーネルベースの強化学習に組み込むための理論的枠組みを開発する。
対称性を意識したRLは、標準のカーネルよりも大幅に性能が向上することを示す。
論文 参考訳(メタデータ) (2025-11-05T13:56:14Z) - Symmetries in PAC-Bayesian Learning [0.9023847175654601]
一般化保証を非コンパクト対称性のより広範な設定に拡張する。
非一様回転群を持つ回転MNISTデータセットの実験により,本理論を検証した。
論文 参考訳(メタデータ) (2025-10-20T08:45:57Z) - Learning (Approximately) Equivariant Networks via Constrained Optimization [25.51476313302483]
等価ニューラルネットワークは、そのアーキテクチャを通して対称性を尊重するように設計されている。
実世界のデータは、ノイズ、構造的変動、測定バイアス、その他の対称性を破る効果のために、しばしば完全対称性から逸脱する。
適応制約等分散(ACE)は、柔軟で非等価なモデルから始まる制約付き最適化手法である。
論文 参考訳(メタデータ) (2025-05-19T18:08:09Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z) - Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z) - A Unified Theory of Stochastic Proximal Point Methods without Smoothness [52.30944052987393]
近点法はその数値的安定性と不完全なチューニングに対する頑健性からかなりの関心を集めている。
本稿では,近位点法(SPPM)の幅広いバリエーションの包括的解析について述べる。
論文 参考訳(メタデータ) (2024-05-24T21:09:19Z) - Equivariant Ensembles and Regularization for Reinforcement Learning in Map-based Path Planning [5.69473229553916]
本稿では,特定のニューラルネットワーク成分を使わずに,同変ポリシーと不変値関数を構築する手法を提案する。
等変アンサンブルと正則化がサンプル効率と性能にどのような影響を与えるかを示す。
論文 参考訳(メタデータ) (2024-03-19T16:01:25Z) - Pseudo-Spherical Contrastive Divergence [119.28384561517292]
エネルギーベースモデルの最大学習確率を一般化するために,擬球面コントラスト分散(PS-CD)を提案する。
PS-CDは難解な分割関数を避け、学習目的の一般化されたファミリーを提供する。
論文 参考訳(メタデータ) (2021-11-01T09:17:15Z) - Generalized Sliced Distances for Probability Distributions [47.543990188697734]
我々は、一般化スライス確率測定(GSPM)と呼ばれる、幅広い確率測定値の族を紹介する。
GSPMは一般化されたラドン変換に根付いており、ユニークな幾何学的解釈を持つ。
GSPMに基づく勾配流を生成モデル応用に適用し、軽度な仮定の下では、勾配流が大域的最適に収束することを示す。
論文 参考訳(メタデータ) (2020-02-28T04:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。