論文の概要: TraceGen: World Modeling in 3D Trace Space Enables Learning from Cross-Embodiment Videos
- arxiv url: http://arxiv.org/abs/2511.21690v1
- Date: Wed, 26 Nov 2025 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.26475
- Title: TraceGen: World Modeling in 3D Trace Space Enables Learning from Cross-Embodiment Videos
- Title(参考訳): TraceGen:3Dトレース空間における世界モデリング
- Authors: Seungjae Lee, Yoonkyo Jung, Inkook Chun, Yao-Chih Lee, Zikui Cai, Hongjia Huang, Aayush Talreja, Tan Dat Dao, Yongyuan Liang, Jia-Bin Huang, Furong Huang,
- Abstract要約: 我々は,ピクセル空間ではなくトレーサ空間における将来の動きを予測する世界モデルであるTraceGenを提案する。
異質な人間とロボットのビデオを一貫した3Dトレースに変換するデータパイプラインであるTraceForgeを開発した。
目標とするロボットビデオはわずか5本で、TraceGenは4つのタスクで80%成功し、最先端のビデオベースの世界モデルよりも50~600倍高速な推論を提供する。
- 参考スコア(独自算出の注目度): 43.87806010452914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning new robot tasks on new platforms and in new scenes from only a handful of demonstrations remains challenging. While videos of other embodiments - humans and different robots - are abundant, differences in embodiment, camera, and environment hinder their direct use. We address the small-data problem by introducing a unifying, symbolic representation - a compact 3D "trace-space" of scene-level trajectories - that enables learning from cross-embodiment, cross-environment, and cross-task videos. We present TraceGen, a world model that predicts future motion in trace-space rather than pixel space, abstracting away appearance while retaining the geometric structure needed for manipulation. To train TraceGen at scale, we develop TraceForge, a data pipeline that transforms heterogeneous human and robot videos into consistent 3D traces, yielding a corpus of 123K videos and 1.8M observation-trace-language triplets. Pretraining on this corpus produces a transferable 3D motion prior that adapts efficiently: with just five target robot videos, TraceGen attains 80% success across four tasks while offering 50-600x faster inference than state-of-the-art video-based world models. In the more challenging case where only five uncalibrated human demonstration videos captured on a handheld phone are available, it still reaches 67.5% success on a real robot, highlighting TraceGen's ability to adapt across embodiments without relying on object detectors or heavy pixel-space generation.
- Abstract(参考訳): 新しいプラットフォームやいくつかのデモから新しいロボットタスクを学ぶことは、まだ難しい。
他の実施形態(人間と異なるロボット)のビデオは豊富だが、実施形態、カメラ、環境の違いは直接の使用を妨げる。
シーンレベルのトラジェクトリのコンパクトな3次元「トレース空間」である統一されたシンボル表現を導入し、クロスエボディメント、クロスエビデンス、クロスタスクビデオから学習できるようにすることで、この小さなデータ問題に対処する。
我々は,ピクセル空間ではなくトレーサ空間における将来の動きを予測し,操作に必要な幾何学的構造を維持しつつ外観を抽象化する世界モデルTraceGenを提案する。
TraceGenを大規模に訓練するために、異質な人間とロボットのビデオを一貫した3Dトレースに変換するデータパイプラインであるTraceForgeを開発した。
このコーパスの事前訓練は、効率よく適応できるトランスファー可能な3Dモーションを生成する。TraceGenは、わずか5つのロボットビデオで、4つのタスクで80%成功し、最先端のビデオベースの世界モデルよりも50~600倍高速な推論を提供する。
携帯端末で撮影された人間のデモビデオが5本しか入手できない、より困難なケースでは、実際のロボットで67.5%の成功を収めており、オブジェクト検出器や重いピクセル空間生成に頼ることなく、エボディメントに適応するTraceGenの能力を強調している。
関連論文リスト
- ManipDreamer3D : Synthesizing Plausible Robotic Manipulation Video with Occupancy-aware 3D Trajectory [56.06314177428745]
ManipDreamer3Dは入力画像とテキスト命令から可塑性3D対応ロボット操作ビデオを生成する。
提案手法は,自律的に計画された3Dトラジェクトリを用いたロボットビデオを生成し,人間の介入要求を大幅に低減する。
論文 参考訳(メタデータ) (2025-08-29T10:39:06Z) - Object-centric 3D Motion Field for Robot Learning from Human Videos [56.9436352861611]
本稿では,人間ビデオからのロボット学習の動作を表現するために,物体中心の3次元運動場を提案する。
ゼロショット制御のためのビデオからこの表現を抽出するための新しいフレームワークを提案する。
実験の結果,提案手法は最新の手法に比べて3次元動作推定誤差を50%以上削減できることがわかった。
論文 参考訳(メタデータ) (2025-06-04T17:59:06Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - Pre-training Auto-regressive Robotic Models with 4D Representations [43.80798244473759]
ARM4Rは、人間のビデオデータから学んだ低レベルの4D表現を利用して、より優れた事前訓練されたロボットモデルを生成する自動回帰ロボットモデルである。
実験の結果、ARM4Rは人間のビデオデータからロボットへ効率よく転送でき、さまざまなロボット環境や構成におけるタスクのパフォーマンスを継続的に改善できることがわかった。
論文 参考訳(メタデータ) (2025-02-18T18:59:01Z) - Robot See Robot Do: Imitating Articulated Object Manipulation with Monocular 4D Reconstruction [51.49400490437258]
本研究は,1つの単分子RGB人間の実演から音声による物体操作を模倣する手法を開発した。
まず,モノクロ映像から3次元部分運動を復元する4次元微分可能部品モデル(4D-DPM)を提案する。
この4D再構成を前提として、ロボットは物体の軌道を再現し、両腕の動きを計画し、実証された物体部分の動きを誘導する。
両用するYuMiロボットを用いて,4D-DPMの3D追跡精度を実写3D部分軌跡に基づいて評価し,9つのオブジェクトに対してRSRDの物理的実行性能を評価した。
論文 参考訳(メタデータ) (2024-09-26T17:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。