Fugu-MT 論文翻訳(概要): Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining

論文の概要: Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining

arxiv url: http://arxiv.org/abs/2604.16391v1
Date: Fri, 27 Mar 2026 17:20:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-04 02:32:13.955482
Title: Disentangled Robot Learning via Separate Forward and Inverse Dynamics Pretraining
Title（参考訳）: 差分フォワードと逆ダイナミクス事前学習による解離型ロボットの学習
Authors: Wenyao Zhang, Bozhou Zhang, Zekun Qi, Wenjun Zeng, Xin Jin, Li Zhang,
Abstract要約: DeFIはビジュアルフォワードと逆ダイナミクスを分離し、各データソースを利用するための新しいフレームワークである。今後の予測のために,多種多様な人・ロボットビデオで事前訓練された一般フォワード・ダイナミクス・モデル(GFDM)と,ラベルなしビデオ遷移から潜伏行動を予測するための自己教師付き学習によって訓練された一般逆ダイナミクス・モデル(GIDM)を紹介する。 CALVIN ABC-D と SimplerEnv の実験では、DeFI は CALVIN の平均タスク長 4.51 に達し、SimplerEnv-Frac は 51.2% 成功した。
参考スコア（独自算出の注目度）: 28.30092786035367
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language-action (VLA) models have shown great potential in building generalist robots, but still face a dilemma-misalignment of 2D image forecasting and 3D action prediction. Besides, such a vision-action entangled training manner limits model learning from large-scale, action-free web video data. To address these issues, we propose DeFI, a novel framework that Decouples visual Forward and Inverse dynamics pretraining to exploit respective data sources, wherein video generation and action prediction are disentangled. We introduce the General Forward Dynamics Model (GFDM), pretrained on diverse human and robot videos for future prediction, and the General Inverse Dynamics Model (GIDM), trained via self-supervised learning to infer latent actions from unlabeled video transitions. These models are then integrated into a unified architecture for end-to-end finetuning on downstream tasks. In this manner, GFDM and GIDM first shine separately and then cooperate for mutual benefit. Extensive experiments on CALVIN ABC-D and SimplerEnv demonstrate state-of-the-art performance, with DeFI achieving an average task length of 4.51 for CALVIN, 51.2% success rate on SimplerEnv-Fractal benchmark and 81.3% success rate in real-world deployment, significantly outperforming prior methods.
Abstract（参考訳）: 視覚言語行動モデル(VLA)は、汎用ロボットの構築において大きな可能性を示しているが、それでも2次元画像予測と3次元動作予測のジレンマ補正に直面している。さらに、このような視覚アクションの絡み合ったトレーニング手法は、大規模でアクションフリーなWebビデオデータからモデル学習を制限する。これらの問題に対処するために,視覚的フォワードと逆ダイナミクスを事前学習して各データソースを利用する新しいフレームワークであるDeFIを提案する。本稿では,今後の予測のために,多種多様な人間・ロボットビデオに事前訓練された汎用フォワード・ダイナミクス・モデル(GFDM)と,ラベルなしビデオ遷移から潜伏行動を予測するための自己教師付き学習によって訓練された汎用逆ダイナミクス・モデル(GIDM)を紹介する。これらのモデルは、下流タスクのエンドツーエンドの微調整のための統一アーキテクチャに統合される。このように、GFDMとGIDMは別々に輝き、その後相互利益のために協力する。 CALVIN ABC-D と SimplerEnv に関する大規模な実験では、DeFI は CALVIN の平均タスク長 4.51 、SimplerEnv-Fractal ベンチマークでの 51.2% 、実世界のデプロイにおける 81.3% の成功率を達成し、先行手法を著しく上回っている。

関連論文リスト

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control [16.562259973551786]
本稿では,ビデオ拡散変換器とアクション拡散変換器を結合したエンドツーエンドのビデオ・アクション・モデルであるDiT4DiTを紹介する。 DiT4DiTは、再構成後のフレームに頼る代わりに、ビデオ生成プロセスから中間的なデノイング機能を抽出する。これは最先端の結果を達成し、LIBEROでは98.6%、RoboCasa GR1では50.8%という平均的な成功率に達した。
論文参考訳（メタデータ） (2026-03-11T06:03:53Z)
InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation [77.07565723756119]
InternVLA-A1は動的予測機能を備えた視覚言語モデルである。我々は、実世界のロボットデータ、合成シミュレーションデータ、人間のビデオなどを用いて、これらのモデルを異種データソース上で事前訓練する。 InternVLA-A1を実世界の12のロボットタスクとシミュレーションベンチマークで評価した。
論文参考訳（メタデータ） (2026-01-05T18:54:29Z)
mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文参考訳（メタデータ） (2025-12-17T18:47:31Z)
RynnVLA-001: Using Human Demonstrations to Improve Robot Manipulation [39.383510768790295]
RynnVLA-001は、人間のデモンストレーションから大規模ビデオ生成前訓練に基づいて構築された視覚言語アクション(VLA)モデルである。最初のステージであるEgo-Centric Video Generative Pretrainingは、12Mのエゴ中心の操作ビデオ上で、画像からビデオまでのモデルを訓練し、初期フレームと言語命令で条件付けられた将来のフレームを予測する。第2段階であるHuman-Centric Trajectory-Aware Modelingは、将来のキーポイント軌跡を共同で予測することでこれを拡張し、アクション予測による視覚的フレーム予測を効果的にブリッジする。
論文参考訳（メタデータ） (2025-09-18T17:58:02Z)
Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。 PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。 ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文参考訳（メタデータ） (2025-08-13T13:54:51Z)
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文参考訳（メタデータ） (2024-11-14T03:13:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。