論文の概要: Adaptive Diffusion Policy Optimization for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2505.08376v1
- Date: Tue, 13 May 2025 09:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.502505
- Title: Adaptive Diffusion Policy Optimization for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための適応拡散ポリシー最適化
- Authors: Huiyun Jiang, Zhuang Yang,
- Abstract要約: アダムベース拡散ポリシー最適化(Adam-based Diffusion Policy Optimization、ADPO)は、ロボット制御タスクにおける微調整拡散に基づく警察のベストプラクティスを含む高速なアルゴリズムフレームワークである。
標準的なロボット制御タスクに関する広範な実験を行い、ADPOを試験し、特に6つの一般的な拡散型RL法をベンチマーク手法として提供する。
- 参考スコア(独自算出の注目度): 10.865448640073911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown the great potential of diffusion models in improving reinforcement learning (RL) by modeling complex policies, expressing a high degree of multi-modality, and efficiently handling high-dimensional continuous control tasks. However, there is currently limited research on how to optimize diffusion-based polices (e.g., Diffusion Policy) fast and stably. In this paper, we propose an Adam-based Diffusion Policy Optimization (ADPO), a fast algorithmic framework containing best practices for fine-tuning diffusion-based polices in robotic control tasks using the adaptive gradient descent method in RL. Adaptive gradient method is less studied in training RL, let alone diffusion-based policies. We confirm that ADPO outperforms other diffusion-based RL methods in terms of overall effectiveness for fine-tuning on standard robotic tasks. Concretely, we conduct extensive experiments on standard robotic control tasks to test ADPO, where, particularly, six popular diffusion-based RL methods are provided as benchmark methods. Experimental results show that ADPO acquires better or comparable performance than the baseline methods. Finally, we systematically analyze the sensitivity of multiple hyperparameters in standard robotics tasks, providing guidance for subsequent practical applications. Our video demonstrations are released in https://github.com/Timeless-lab/ADPO.git.
- Abstract(参考訳): 近年の研究では、複雑なポリシーをモデル化し、高次多モード性を示し、高次元連続制御タスクを効率的に扱うことにより、強化学習(RL)を改善する拡散モデルの大きな可能性を示している。
しかし,現在,拡散型警察(拡散政策など)を迅速かつ安定的に最適化する方法の限定的な研究が行われている。
本稿では,RLの適応勾配降下法を用いて,ロボット制御タスクにおける微調整型拡散型警察のベストプラクティスを含む高速アルゴリズムフレームワークであるAdam-based Diffusion Policy Optimization (ADPO)を提案する。
適応勾配法はRLの訓練では研究されていないが、もちろん拡散に基づく政策は研究されていない。
我々は,ADPOが他の拡散型RL法よりも,標準的なロボット作業の微調整の総合的効果に優れていることを確認した。
具体的には,ADPOテストのための標準的なロボット制御タスクに関する広範な実験を行い,特に6つの普及型拡散型RL法をベンチマーク手法として提供する。
実験の結果,ADPOはベースライン法よりも優れた,あるいは同等の性能を得られることがわかった。
最後に,標準的なロボット作業における複数のハイパーパラメータの感度を体系的に解析し,その後の実用化に向けたガイダンスを提供する。
ビデオデモはhttps://github.com/Timeless-lab/ADPO.git.comで公開されています。
関連論文リスト
- Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。
DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。
DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文 参考訳(メタデータ) (2024-09-01T02:47:50Z) - The Hitchhiker's Guide to Human Alignment with *PO [43.4130314879284]
我々は,高次パラメータの変動に対して同時に頑健であるアルゴリズムの同定に焦点をあてる。
解析の結果,広範に採用されているDPO法は,品質が劣る長大な応答を連続的に生成することがわかった。
これらの結果から,DPOアルゴリズムであるLN-DPOの精度が向上し,品質を損なうことなく,より簡潔な応答が得られることが示唆された。
論文 参考訳(メタデータ) (2024-07-21T17:35:20Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - DPO: Differential reinforcement learning with application to optimal configuration search [3.2857981869020327]
連続状態と行動空間による強化学習は、この分野における最も困難な問題の1つである。
限られたトレーニングサンプルと短いエピソードで設定を処理できる最初の微分RLフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T03:11:12Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。