論文の概要: Equivariant Diffusion Policy
- arxiv url: http://arxiv.org/abs/2407.01812v2
- Date: Fri, 11 Oct 2024 20:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 17:54:22.057190
- Title: Equivariant Diffusion Policy
- Title(参考訳): 等変拡散政策
- Authors: Dian Wang, Stephen Hart, David Surovik, Tarik Kelestemur, Haojie Huang, Haibo Zhao, Mark Yeatman, Jiuguang Wang, Robin Walters, Robert Platt,
- Abstract要約: そこで本研究では,ドメイン対称性を利用した新しい拡散政策学習手法を提案し,より優れたサンプル効率とデノナイジング関数の一般化を実現する。
提案手法は,MimicGenにおける12のシミュレーションタスクに対して実証的に評価し,ベースライン拡散政策よりも平均21.9%高い成功率が得られることを示す。
- 参考スコア(独自算出の注目度): 16.52810213171303
- License:
- Abstract: Recent work has shown diffusion models are an effective approach to learning the multimodal distributions arising from demonstration data in behavior cloning. However, a drawback of this approach is the need to learn a denoising function, which is significantly more complex than learning an explicit policy. In this work, we propose Equivariant Diffusion Policy, a novel diffusion policy learning method that leverages domain symmetries to obtain better sample efficiency and generalization in the denoising function. We theoretically analyze the $\mathrm{SO}(2)$ symmetry of full 6-DoF control and characterize when a diffusion model is $\mathrm{SO}(2)$-equivariant. We furthermore evaluate the method empirically on a set of 12 simulation tasks in MimicGen, and show that it obtains a success rate that is, on average, 21.9% higher than the baseline Diffusion Policy. We also evaluate the method on a real-world system to show that effective policies can be learned with relatively few training samples, whereas the baseline Diffusion Policy cannot.
- Abstract(参考訳): 近年の研究では, 行動クローニングにおける実演データから生じるマルチモーダル分布を学習する上で, 拡散モデルが有効な手法であることが示されている。
しかし、このアプローチの欠点は、明示的なポリシーを学ぶよりもはるかに複雑である、妄想関数を学ぶ必要があることである。
本研究では,ドメイン対称性を利用した新しい拡散政策学習手法であるEquivariant Diffusion Policyを提案する。
理論的には、フル6-DoF制御の$\mathrm{SO}(2)$対称性を解析し、拡散モデルが$\mathrm{SO}(2)$-equivariantであるときに特徴付ける。
さらに、MimicGenの12のシミュレーションタスクのセット上で実験的に評価し、平均21.9%の精度で成功率を得ることを示す。
また,本手法を実世界のシステム上で評価し,比較的少数のトレーニングサンプルを用いて効果的な政策を学習できることを示し,ベースライン拡散政策は学習できないことを示した。
関連論文リスト
- Diffusion Actor-Critic with Entropy Regulator [32.79341490514616]
エントロピーレギュレータ(DACER)を用いたオンラインRLアルゴリズムについて提案する。
このアルゴリズムは拡散モデルの逆過程を新しい政策関数として概念化する。
MuJoCoベンチマークとマルチモーダルタスクの実験は、DACERアルゴリズムが最先端(SOTA)性能を達成することを示す。
論文 参考訳(メタデータ) (2024-05-24T03:23:27Z) - Don't Start from Scratch: Behavioral Refinement via Interpolant-based Policy Diffusion [16.44141792109178]
拡散モデルは、標準ガウスノイズから作用(あるいは状態)を拡散することでポリシーを形成することを学習する。
学習対象のポリシーはガウスとは大きく異なり、少数の拡散ステップを使用すると性能が低下する可能性がある。
提案手法は,情報ソースポリシーの利点を示す理論的結果,新しい方法,実証的な知見の両方に寄与する。
論文 参考訳(メタデータ) (2024-02-25T12:19:21Z) - Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z) - Observation-Guided Diffusion Probabilistic Models [41.749374023639156]
観測誘導拡散確率モデル(OGDM)と呼ばれる新しい拡散に基づく画像生成法を提案する。
本手法は,観測プロセスの指導をマルコフ連鎖と統合することにより,トレーニング目標を再構築する。
本研究では,強力な拡散モデルベースライン上での多様な推論手法を用いたトレーニングアルゴリズムの有効性を示す。
論文 参考訳(メタデータ) (2023-10-06T06:29:06Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Probabilistic Mixture-of-Experts for Efficient Deep Reinforcement
Learning [7.020079427649125]
学習効率と性能向上のためには,非特異な最適タスクに対する識別可能なスキルの把握が不可欠であることを示す。
マルチモーダル政策のための確率的混合専門家(PMOE)と、無差問題に対する新しい勾配推定器を提案する。
論文 参考訳(メタデータ) (2021-04-19T08:21:56Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。