論文の概要: TC-IDM: Grounding Video Generation for Executable Zero-shot Robot Motion
- arxiv url: http://arxiv.org/abs/2601.18323v1
- Date: Mon, 26 Jan 2026 10:06:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.947272
- Title: TC-IDM: Grounding Video Generation for Executable Zero-shot Robot Motion
- Title(参考訳): TC-IDM:実行可能ゼロショットロボット運動のためのグラウンド映像生成
- Authors: Weishi Mi, Yong Bao, Xiaowei Chi, Xiaozhu Ju, Zhiyuan Qin, Kuangzhi Ge, Kai Tang, Peidong Jia, Shanghang Zhang, Jian Tang,
- Abstract要約: ジェネレーティブワールドモデルは、汎用的なエンボディAIに代わる有望な選択肢を提供する。
視覚計画と身体制御のギャップを埋めるツール中心逆ダイナミクスモデル(TC-IDM)を提案する。
実世界の評価では、TC-IDMを用いた世界モデルの平均成功率は61.11パーセント、単純タスクは77.7%、ゼロショット変形可能なオブジェクトタスクは38.66%である。
- 参考スコア(独自算出の注目度): 38.88993836311246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vision-language-action (VLA) paradigm has enabled powerful robotic control by leveraging vision-language models, but its reliance on large-scale, high-quality robot data limits its generalization. Generative world models offer a promising alternative for general-purpose embodied AI, yet a critical gap remains between their pixel-level plans and physically executable actions. To this end, we propose the Tool-Centric Inverse Dynamics Model (TC-IDM). By focusing on the tool's imagined trajectory as synthesized by the world model, TC-IDM establishes a robust intermediate representation that bridges the gap between visual planning and physical control. TC-IDM extracts the tool's point cloud trajectories via segmentation and 3D motion estimation from generated videos. Considering diverse tool attributes, our architecture employs decoupled action heads to project these planned trajectories into 6-DoF end-effector motions and corresponding control signals. This plan-and-translate paradigm not only supports a wide range of end-effectors but also significantly improves viewpoint invariance. Furthermore, it exhibits strong generalization capabilities across long-horizon and out-of-distribution tasks, including interacting with deformable objects. In real-world evaluations, the world model with TC-IDM achieves an average success rate of 61.11 percent, with 77.7 percent on simple tasks and 38.46 percent on zero-shot deformable object tasks. It substantially outperforms end-to-end VLA-style baselines and other inverse dynamics models.
- Abstract(参考訳): 視覚言語アクション(VLA)パラダイムは、視覚言語モデルを活用することで強力なロボット制御を可能にしたが、大規模で高品質なロボットデータに依存しているため、その一般化は制限されている。
ジェネレーティブワールドモデルは汎用的なエンボディAIに代わる有望な代替手段を提供するが、ピクセルレベルの計画と物理的に実行可能なアクションの間には重要なギャップが残っている。
この目的のために,ツール中心逆ダイナミクスモデル(TC-IDM)を提案する。
TC-IDMは、世界モデルによって合成されたツールの想像軌道に焦点を合わせ、ビジュアルプランニングと物理制御のギャップを埋める堅牢な中間表現を確立する。
TC-IDMは、生成されたビデオからセグメンテーションと3Dモーション推定によって、ツールのポイントクラウドトラジェクトリを抽出する。
多様なツール特性を考慮すると、このアーキテクチャでは、これらの計画された軌道を6-DoFのエンドエフェクタ運動とそれに対応する制御信号に投影するために、分離された動作ヘッドを用いる。
このプラン・アンド・トランスレーションのパラダイムは、幅広いエンドエフェクタをサポートするだけでなく、視点不変性を大幅に改善する。
さらに、変形可能なオブジェクトとの相互作用を含む、長距離およびアウト・オブ・ディストリビューションタスクにまたがる強力な一般化能力を示す。
実世界の評価では、TC-IDMを用いた世界モデルの平均成功率は61.11パーセント、単純タスクは77.7%、ゼロショット変形可能なオブジェクトタスクは38.66%である。
エンド・ツー・エンドのVLAスタイルのベースラインや他の逆ダイナミクスモデルよりも大幅に優れています。
関連論文リスト
- ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - MobileManiBench: Simplifying Model Verification for Mobile Manipulation [70.30578259859512]
MobileManiBenchは、モバイルベースのロボット操作のための大規模なベンチマークである。
MobileManiBenchには、2つのモバイルプラットフォーム(パラレルグリッパーとデキソラスハンドロボット)、2つの同期カメラ(頭と右手首)、630のオブジェクト(オープン、クローズ、プル、プッシュ、ピック)、5つのスキル(オープン、クローズ、プッシュ、ピック)、100以上のタスクが現実的なシーンで実行される。
論文 参考訳(メタデータ) (2026-02-05T02:49:52Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos [24.111891848073288]
身体的世界モデルは、視覚的な観察と行動を通じて物理的世界と予測し、相互作用することを目的としている。
MTV-Worldは正確なビジュモータ予測のためのマルチビュートラジェクトリ・ビデオ制御を導入した。
MTV-Worldは、複雑なデュアルアームシナリオにおける正確な制御実行と正確な物理的相互作用モデリングを実現する。
論文 参考訳(メタデータ) (2025-11-17T02:17:04Z) - URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - IRASim: A Fine-Grained World Model for Robot Manipulation [24.591694756757278]
本稿では,ロボットとオブジェクトのインタラクションの詳細を詳細に表現したビデオを生成する新しい世界モデルIRASimを提案する。
拡散変圧器を訓練し、各変圧器ブロック内に新しいフレームレベル動作条件モジュールを導入し、アクションフレームアライメントを明示的にモデル化し強化する。
論文 参考訳(メタデータ) (2024-06-20T17:50:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。