論文の概要: Adaptive Diffusion Policy Optimization for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2505.08376v1
- Date: Tue, 13 May 2025 09:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.502505
- Title: Adaptive Diffusion Policy Optimization for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための適応拡散ポリシー最適化
- Authors: Huiyun Jiang, Zhuang Yang,
- Abstract要約: アダムベース拡散ポリシー最適化(Adam-based Diffusion Policy Optimization、ADPO)は、ロボット制御タスクにおける微調整拡散に基づく警察のベストプラクティスを含む高速なアルゴリズムフレームワークである。
標準的なロボット制御タスクに関する広範な実験を行い、ADPOを試験し、特に6つの一般的な拡散型RL法をベンチマーク手法として提供する。
- 参考スコア(独自算出の注目度): 10.865448640073911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown the great potential of diffusion models in improving reinforcement learning (RL) by modeling complex policies, expressing a high degree of multi-modality, and efficiently handling high-dimensional continuous control tasks. However, there is currently limited research on how to optimize diffusion-based polices (e.g., Diffusion Policy) fast and stably. In this paper, we propose an Adam-based Diffusion Policy Optimization (ADPO), a fast algorithmic framework containing best practices for fine-tuning diffusion-based polices in robotic control tasks using the adaptive gradient descent method in RL. Adaptive gradient method is less studied in training RL, let alone diffusion-based policies. We confirm that ADPO outperforms other diffusion-based RL methods in terms of overall effectiveness for fine-tuning on standard robotic tasks. Concretely, we conduct extensive experiments on standard robotic control tasks to test ADPO, where, particularly, six popular diffusion-based RL methods are provided as benchmark methods. Experimental results show that ADPO acquires better or comparable performance than the baseline methods. Finally, we systematically analyze the sensitivity of multiple hyperparameters in standard robotics tasks, providing guidance for subsequent practical applications. Our video demonstrations are released in https://github.com/Timeless-lab/ADPO.git.
- Abstract(参考訳): 近年の研究では、複雑なポリシーをモデル化し、高次多モード性を示し、高次元連続制御タスクを効率的に扱うことにより、強化学習(RL)を改善する拡散モデルの大きな可能性を示している。
しかし,現在,拡散型警察(拡散政策など)を迅速かつ安定的に最適化する方法の限定的な研究が行われている。
本稿では,RLの適応勾配降下法を用いて,ロボット制御タスクにおける微調整型拡散型警察のベストプラクティスを含む高速アルゴリズムフレームワークであるAdam-based Diffusion Policy Optimization (ADPO)を提案する。
適応勾配法はRLの訓練では研究されていないが、もちろん拡散に基づく政策は研究されていない。
我々は,ADPOが他の拡散型RL法よりも,標準的なロボット作業の微調整の総合的効果に優れていることを確認した。
具体的には,ADPOテストのための標準的なロボット制御タスクに関する広範な実験を行い,特に6つの普及型拡散型RL法をベンチマーク手法として提供する。
実験の結果,ADPOはベースライン法よりも優れた,あるいは同等の性能を得られることがわかった。
最後に,標準的なロボット作業における複数のハイパーパラメータの感度を体系的に解析し,その後の実用化に向けたガイダンスを提供する。
ビデオデモはhttps://github.com/Timeless-lab/ADPO.git.comで公開されています。
関連論文リスト
- Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。
DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。
DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。
DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文 参考訳(メタデータ) (2024-09-01T02:47:50Z) - The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T17:35:20Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Score Regularized Policy Optimization through Diffusion Behavior [25.926641622408752]
オフライン強化学習の最近の進歩は拡散モデリングの潜在可能性を明らかにしている。
本稿では,批判モデルと事前学習した拡散行動モデルから,効率的な決定論的推論ポリシーを抽出することを提案する。
本手法は,移動作業における各種拡散法と比較して,動作サンプリング速度を25倍以上に向上させる。
論文 参考訳(メタデータ) (2023-10-11T08:31:26Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。