論文の概要: VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation
- arxiv url: http://arxiv.org/abs/2411.09153v1
- Date: Thu, 14 Nov 2024 03:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:23:51.629447
- Title: VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation
- Title(参考訳): VidMan:効果的なロボットマニピュレーションのためのビデオ拡散モデルからのインシシトダイナミクスの爆発
- Authors: Youpeng Wen, Junfan Lin, Yi Zhu, Jianhua Han, Hang Xu, Shen Zhao, Xiaodan Liang,
- Abstract要約: VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
- 参考スコア(独自算出の注目度): 79.00294932026266
- License:
- Abstract: Recent advancements utilizing large-scale video data for learning video generation models demonstrate significant potential in understanding complex physical dynamics. It suggests the feasibility of leveraging diverse robot trajectory data to develop a unified, dynamics-aware model to enhance robot manipulation. However, given the relatively small amount of available robot data, directly fitting data without considering the relationship between visual observations and actions could lead to suboptimal data utilization. To this end, we propose VidMan (Video Diffusion for Robot Manipulation), a novel framework that employs a two-stage training mechanism inspired by dual-process theory from neuroscience to enhance stability and improve data utilization efficiency. Specifically, in the first stage, VidMan is pre-trained on the Open X-Embodiment dataset (OXE) for predicting future visual trajectories in a video denoising diffusion manner, enabling the model to develop a long horizontal awareness of the environment's dynamics. In the second stage, a flexible yet effective layer-wise self-attention adapter is introduced to transform VidMan into an efficient inverse dynamics model that predicts action modulated by the implicit dynamics knowledge via parameter sharing. Our VidMan framework outperforms state-of-the-art baseline model GR-1 on the CALVIN benchmark, achieving a 11.7% relative improvement, and demonstrates over 9% precision gains on the OXE small-scale dataset. These results provide compelling evidence that world models can significantly enhance the precision of robot action prediction. Codes and models will be public.
- Abstract(参考訳): ビデオ生成モデル学習のための大規模ビデオデータを活用した最近の進歩は、複雑な物理力学を理解する上で大きな可能性を示している。
このことは、多様なロボット軌道データを活用して、ロボット操作を強化する統一された動的認識モデルを開発する可能性を示している。
しかし、利用可能なロボットデータの量が比較的少ないことを考えると、視覚的観察と行動の関係を考慮せずに直接データを適合させることは、最適なデータ利用につながる可能性がある。
この目的のために,ニューロサイエンスの二重プロセス理論に触発され,安定性を高め,データ利用効率を向上させるための2段階トレーニング機構を取り入れた新しいフレームワークであるVidMan(ビデオ拡散ロボットマニピュレーション)を提案する。
特に第1段階では、VidMan は Open X-Embodiment データセット (OXE) 上に事前トレーニングされ、拡散の仕方で将来の視覚的軌跡を予測する。
第2段階では、フレキシブルで効果的なレイヤワイドなセルフアテンションアダプタを導入し、パラメータ共有を介して暗黙のダイナミックス知識によって変調されたアクションを予測する効率的な逆ダイナミクスモデルに変換する。
我々のVidManフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示している。
これらの結果は、世界モデルがロボット行動予測の精度を大幅に向上できることを示す。
コードとモデルは公開されます。
関連論文リスト
- Robots Pre-train Robots: Manipulation-Centric Robotic Representation from Large-Scale Robot Datasets [24.77850617214567]
本稿では,視覚的特徴と操作タスクの行動や受容といった動的情報の両方を抽出する基礎表現学習フレームワークを提案する。
具体的には、DROIDロボットデータセット上で視覚エンコーダを事前訓練し、ロボットの受容状態や動作などの動作関連データを活用する。
本研究では,視覚的観察をロボットの主観的状態-動作ダイナミクスと整合させる新しいコントラスト的損失と,事前トレーニング中の行動を予測する行動クローニング(BC)のようなアクター損失と,時間的コントラスト的損失を導入する。
論文 参考訳(メタデータ) (2024-10-29T17:58:13Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation [23.554917579133576]
本稿では,ロボット拡散変換器(RDT)について述べる。
RDTは、マルチモーダリティを効果的に表現するために拡散モデルを構築し、スケーラブルトランスフォーマーの革新的な設計である。
さらに,様々なロボットの動作表現を統一する物理解釈可能な統一行動空間を導入する。
論文 参考訳(メタデータ) (2024-10-10T12:33:46Z) - RoboPack: Learning Tactile-Informed Dynamics Models for Dense Packing [38.97168020979433]
本稿では, 視覚と触覚を組み合わせ, 触覚インフォームド・ダイナミックスモデルを学習することでロボット操作を実現するアプローチを提案する。
提案するフレームワークであるRoboPackは、オブジェクト状態を推定するために、リカレントグラフニューラルネットワークを使用している。
我々は,非包括的操作と密包装作業に対するソフトバブル触覚センサを備えた実ロボットへのアプローチを実証する。
論文 参考訳(メタデータ) (2024-07-01T16:08:37Z) - Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation [16.809190349155525]
最近の研究は、人間のデータを用いた大規模な事前学習に変わった。
人間とロボットの形態的差異は、有意な人間-ロボットドメインの相違をもたらす。
そこで本研究では,容易に利用可能な人間ロボットのビデオデータを利用して,その相違を補う新しい適応パラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-20T11:57:46Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。