論文の概要: Time-Unified Diffusion Policy with Action Discrimination for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2506.09422v1
- Date: Wed, 11 Jun 2025 06:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.568938
- Title: Time-Unified Diffusion Policy with Action Discrimination for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための行動識別を伴う時間統一拡散政策
- Authors: Ye Niu, Sanping Zhou, Yizhe Li, Ye Den, Le Wang,
- Abstract要約: 本稿では,行動認識機能を利用した時間統一拡散政策(TUDP)を提案する。
提案手法はRLBench上での最先端性能を,マルチビューで82.6%,シングルビューで83.8%と高い成功率で達成する。
- 参考スコア(独自算出の注目度): 19.449168375853347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many complex scenarios, robotic manipulation relies on generative models to estimate the distribution of multiple successful actions. As the diffusion model has better training robustness than other generative models, it performs well in imitation learning through successful robot demonstrations. However, the diffusion-based policy methods typically require significant time to iteratively denoise robot actions, which hinders real-time responses in robotic manipulation. Moreover, existing diffusion policies model a time-varying action denoising process, whose temporal complexity increases the difficulty of model training and leads to suboptimal action accuracy. To generate robot actions efficiently and accurately, we present the Time-Unified Diffusion Policy (TUDP), which utilizes action recognition capabilities to build a time-unified denoising process. On the one hand, we build a time-unified velocity field in action space with additional action discrimination information. By unifying all timesteps of action denoising, our velocity field reduces the difficulty of policy learning and speeds up action generation. On the other hand, we propose an action-wise training method, which introduces an action discrimination branch to supply additional action discrimination information. Through action-wise training, the TUDP implicitly learns the ability to discern successful actions to better denoising accuracy. Our method achieves state-of-the-art performance on RLBench with the highest success rate of 82.6% on a multi-view setup and 83.8% on a single-view setup. In particular, when using fewer denoising iterations, TUDP achieves a more significant improvement in success rate. Additionally, TUDP can produce accurate actions for a wide range of real-world tasks.
- Abstract(参考訳): 多くの複雑なシナリオにおいて、ロボット操作は、複数の成功したアクションの分布を推定するために生成モデルに依存する。
拡散モデルは、他の生成モデルよりも堅牢性のトレーニングが優れているため、ロボットのデモンストレーションを成功させることで、模倣学習においてうまく機能する。
しかし、拡散に基づく政策手法は、ロボット操作においてリアルタイムの応答を妨げるロボット動作を反復的に認知するためにかなりの時間を要するのが一般的である。
さらに、既存の拡散ポリシーは、時間的複雑さがモデルの訓練の困難を増し、最適以下の行動精度をもたらすような、時間的変化のある行動認知過程をモデル化する。
ロボットの動作を効率的かつ正確に生成するために,動作認識機能を利用した時間統一拡散政策(TUDP)を提案する。
一方,動作空間に付加的な行動識別情報を備えた時間統一速度場を構築する。
行動認知のすべての時間ステップを統一することにより、我々の速度場は政策学習の難しさを減らし、行動生成を高速化する。
一方,行動判断情報を付加的に提供するための行動識別分岐を導入する行動訓練手法を提案する。
動作に関するトレーニングを通じて、TUDPは暗黙的に、成功している動作を識別し、精度を劣化させる能力を学ぶ。
提案手法はRLBench上での最先端性能を,マルチビューで82.6%,シングルビューで83.8%と高い成功率で達成する。
特に、分割イテレーションが少ない場合、TUDPは成功率をより大きく向上させる。
さらにTUDPは、幅広い現実世界のタスクに対して正確なアクションを生成することができる。
関連論文リスト
- FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する,新しい値に基づく強化学習アルゴリズムを提案する。
実験により、CQN-ASは、様々なスパース逆ヒューマノイド制御およびテーブルトップ操作タスクにおいて、いくつかのベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation [18.209973947319316]
拡散モデルは自然画像から運動軌道への複雑な分布を生成するのに有効であることが確認されている。
近年の手法では3次元ロボット操作作業において顕著な性能を示すが、複数のデノナイジングステップにより実行時の非効率が悪化している。
拡散過程に一貫性の制約を課すリアルタイムロボット操作モデルManiCMを提案する。
論文 参考訳(メタデータ) (2024-06-03T17:59:23Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - Adaptive Training Meets Progressive Scaling: Elevating Efficiency in Diffusion Models [52.1809084559048]
TDCトレーニングと呼ばれる新しい2段階分割型トレーニング戦略を提案する。
タスクの類似性と難易度に基づいてタイムステップをグループ化し、高度にカスタマイズされた復調モデルを各グループに割り当て、拡散モデルの性能を向上させる。
2段階のトレーニングでは、各モデルを個別にトレーニングする必要がなくなるが、総トレーニングコストは、単一の統合されたデノナイジングモデルをトレーニングするよりもさらに低い。
論文 参考訳(メタデータ) (2023-12-20T03:32:58Z) - Disturbance Injection under Partial Automation: Robust Imitation
Learning for Long-horizon Tasks [11.554935619056819]
知的支援システムを備えた部分自動化(PA)が産業機械や先進自動車に導入されている。
本稿では、新しい模倣学習フレームワークとして、部分的自動化下での外乱注入(DIPA)を提案する。
本手法の有効性を2つのシミュレーションと実ロボット環境において実験的に検証した。
論文 参考訳(メタデータ) (2023-03-22T08:22:12Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。