論文の概要: ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2406.01586v1
- Date: Mon, 3 Jun 2024 17:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 21:41:25.375610
- Title: ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation
- Title(参考訳): ManiCM:ロボットマニピュレーションのための一貫性モデルによるリアルタイム3次元拡散政策
- Authors: Guanxing Lu, Zifeng Gao, Tianxing Chen, Wenxun Dai, Ziwei Wang, Yansong Tang,
- Abstract要約: 拡散モデルは自然画像から運動軌道への複雑な分布を生成するのに有効であることが確認されている。
近年の手法では3次元ロボット操作作業において顕著な性能を示すが、複数のデノナイジングステップにより実行時の非効率が悪化している。
拡散過程に一貫性の制約を課すリアルタイムロボット操作モデルManiCMを提案する。
- 参考スコア(独自算出の注目度): 16.272352213590313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have been verified to be effective in generating complex distributions from natural images to motion trajectories. Recent diffusion-based methods show impressive performance in 3D robotic manipulation tasks, whereas they suffer from severe runtime inefficiency due to multiple denoising steps, especially with high-dimensional observations. To this end, we propose a real-time robotic manipulation model named ManiCM that imposes the consistency constraint to the diffusion process, so that the model can generate robot actions in only one-step inference. Specifically, we formulate a consistent diffusion process in the robot action space conditioned on the point cloud input, where the original action is required to be directly denoised from any point along the ODE trajectory. To model this process, we design a consistency distillation technique to predict the action sample directly instead of predicting the noise within the vision community for fast convergence in the low-dimensional action manifold. We evaluate ManiCM on 31 robotic manipulation tasks from Adroit and Metaworld, and the results demonstrate that our approach accelerates the state-of-the-art method by 10 times in average inference speed while maintaining competitive average success rate.
- Abstract(参考訳): 拡散モデルは自然画像から運動軌道への複雑な分布を生成するのに有効であることが確認されている。
近年の拡散法は3次元ロボット操作作業において顕著な性能を示し,特に高次元観察において,複数のデノナイジングステップによる実行時の非効率に悩まされている。
そこで本研究では,拡散過程に一貫性制約を課すリアルタイムロボット操作モデルManiCMを提案する。
具体的には、点クラウド入力に条件付されたロボットの動作空間における一貫した拡散過程を定式化し、元の動作はODE軌道上の任意の点から直接微分される必要がある。
この過程をモデル化するために、我々は、低次元の作用多様体における高速収束のために、視覚コミュニティ内のノイズを予測せずに、アクションサンプルを直接予測する一貫性蒸留法を設計する。
我々は,AdroitとMetaworldの31のロボット操作タスクに対するManiCMの評価を行い,提案手法は競争平均成功率を維持しつつ,平均推論速度を10倍向上させることを示した。
関連論文リスト
- Bayesian-Optimized One-Step Diffusion Model with Knowledge Distillation for Real-Time 3D Human Motion Prediction [2.402745776249116]
本稿では,知識蒸留とベイズ最適化を用いた1段階多層パーセプトロン(MLP)拡散モデルによる動き予測のトレーニングを提案する。
提案モデルでは,予測速度を大幅に向上し,性能の劣化を伴わないリアルタイム予測を実現している。
論文 参考訳(メタデータ) (2024-09-19T04:36:40Z) - COIN: Control-Inpainting Diffusion Prior for Human and Camera Motion Estimation [98.05046790227561]
COINは、人間の動きとカメラの動きを細粒度に制御できる、コントロール・インパインティング・モーション拡散である。
COINは、グローバルな人間の動き推定とカメラの動き推定という観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-29T10:36:29Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - GazeMoDiff: Gaze-guided Diffusion Model for Stochastic Human Motion Prediction [10.982807572404166]
本稿では、人間の動きを生成するための新しい視線誘導型微分拡散モデルGazeMoを提案する。
提案手法はまず視線エンコーダを用いて視線と運動の特徴を抽出し,その特徴を融合させるグラフアテンションネットワークを用いる。
提案手法は,マルチモーダルな最終誤差の点で,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:10:12Z) - Movement Primitive Diffusion: Learning Gentle Robotic Manipulation of Deformable Objects [14.446751610174868]
運動原始拡散(英: Movement Primitive Diffusion、MPD)は、ロボット支援手術における模倣学習(IL)の新しい手法である。
MPDは拡散型模倣学習(DIL)の汎用性と確率的動特性プリミティブ(ProDMP)の高品質な運動生成能力を組み合わせる
実世界および実世界の様々なロボット作業におけるMPDの評価を,状態観察と画像観察の両方で行う。
論文 参考訳(メタデータ) (2023-12-15T18:24:28Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - Diffusion-EDFs: Bi-equivariant Denoising Generative Modeling on SE(3)
for Visual Robotic Manipulation [5.11432473998551]
Diffusion-EDFsは、視覚ロボット操作タスクのための新しいSE(3)等価拡散に基づくアプローチである。
提案手法は,1時間以内で実効的なエンドツーエンドトレーニングを行うためには,5~10回の人間による実演を必要とせず,顕著なデータ効率を実現する。
論文 参考訳(メタデータ) (2023-09-06T03:42:20Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z) - Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。
シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。
本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T07:30:27Z) - STEADY: Simultaneous State Estimation and Dynamics Learning from
Indirect Observations [17.86873192361793]
キノダイナミックモデル学習における最先端の多くのアプローチは、ラベル付き入力/出力の例としてロボットの状態の正確な測定を必要とする。
状態推定と動的学習を同時に行うことにより,ニューラルキノダイナミックモデルの学習手法を提案する。
提案手法は精度が大幅に向上するが, 観測音に対する堅牢性も向上し, 他の多くのロボティクスアプリケーションの性能向上が期待できる。
論文 参考訳(メタデータ) (2022-03-02T18:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。