論文の概要: Walk through Paintings: Egocentric World Models from Internet Priors
- arxiv url: http://arxiv.org/abs/2601.15284v1
- Date: Wed, 21 Jan 2026 18:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.510416
- Title: Walk through Paintings: Egocentric World Models from Internet Priors
- Title(参考訳): 絵画を歩き回る:インターネットの先駆者によるエゴセントリックな世界モデル
- Authors: Anurag Bagchi, Zhipeng Bao, Homanga Bharadhwaj, Yu-Xiong Wang, Pavel Tokmakov, Martial Hebert,
- Abstract要約: 本稿では,エゴセントリック・ワールド・モデル(EgoWM)について述べる。
我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。
当社のアプローチは,3-DoF移動ロボットから25-DoFヒューマノイドまで,エボディメントやアクションスペースを自然に拡張する。
- 参考スコア(独自算出の注目度): 65.30611174953958
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: What if a video generation model could not only imagine a plausible future, but the correct one, accurately reflecting how the world changes with each action? We address this question by presenting the Egocentric World Model (EgoWM), a simple, architecture-agnostic method that transforms any pretrained video diffusion model into an action-conditioned world model, enabling controllable future prediction. Rather than training from scratch, we repurpose the rich world priors of Internet-scale video models and inject motor commands through lightweight conditioning layers. This allows the model to follow actions faithfully while preserving realism and strong generalization. Our approach scales naturally across embodiments and action spaces, ranging from 3-DoF mobile robots to 25-DoF humanoids, where predicting egocentric joint-angle-driven dynamics is substantially more challenging. The model produces coherent rollouts for both navigation and manipulation tasks, requiring only modest fine-tuning. To evaluate physical correctness independently of visual appearance, we introduce the Structural Consistency Score (SCS), which measures whether stable scene elements evolve consistently with the provided actions. EgoWM improves SCS by up to 80 percent over prior state-of-the-art navigation world models, while achieving up to six times lower inference latency and robust generalization to unseen environments, including navigation inside paintings.
- Abstract(参考訳): もしビデオ生成モデルが、もっともらしい未来だけでなく、それぞれのアクションで世界がどのように変化するかを正確に反映して、正しい未来を想像できたらどうだろう?
本稿では,エゴセントリック・ワールド・モデル(EgoWM)という,事前学習したビデオ拡散モデルをアクション条件付き世界・モデルに変換し,制御可能な将来予測を可能にする,シンプルでアーキテクチャに依存しない手法を提案する。
我々は、スクラッチからトレーニングするよりも、インターネット規模のビデオモデルのリッチワールドを再利用し、軽量なコンディショニング層を通じてモーターコマンドを注入する。
これにより、モデルは現実主義と強い一般化を維持しながら、忠実に行動に従うことができる。
我々のアプローチは、3-DoFの移動ロボットから25-DoFのヒューマノイドまで、エゴセントリックな関節角度駆動の力学を予測することは、非常に困難である。
このモデルはナビゲーションと操作の両方に一貫性のあるロールアウトを生成しており、微調整は控えめである。
視覚的外観とは無関係に身体的正当性を評価するために,安定なシーン要素が提供されたアクションと連続的に進化するかどうかを計測する構造整合スコア(SCS)を導入する。
EgoWMは、最先端のナビゲーションワールドモデルよりもSCSを最大80%改善し、最大6倍の推論レイテンシと、絵画内のナビゲーションを含む見えない環境への堅牢な一般化を実現している。
関連論文リスト
- MAD: Motion Appearance Decoupling for efficient Driving World Models [94.40548866741791]
本稿では,一般的な映像モデルを制御可能な運転世界モデルに変換する,効率的な適応フレームワークを提案する。
鍵となるアイデアは、外見合成からモーションラーニングを分離することである。
私たちのMAD-LTXモデルであるLTXへのスケーリングは、すべてのオープンソース競合より優れています。
論文 参考訳(メタデータ) (2026-01-14T12:52:23Z) - EgoGrasp: World-Space Hand-Object Interaction Estimation from Egocentric Videos [25.047225764745978]
EgoGraspは,世界空間のハンドオブジェクトインタラクション(W-HOI)を,野生のダイナミックカメラを用いて,エゴセントリックなモノクロビデオから再構築する最初の方法である。
実験では,W-HOI再建における最先端性能を実現する手法を実証した。
論文 参考訳(メタデータ) (2026-01-03T03:08:48Z) - Towards High-Consistency Embodied World Model with Multi-View Trajectory Videos [24.111891848073288]
身体的世界モデルは、視覚的な観察と行動を通じて物理的世界と予測し、相互作用することを目的としている。
MTV-Worldは正確なビジュモータ予測のためのマルチビュートラジェクトリ・ビデオ制御を導入した。
MTV-Worldは、複雑なデュアルアームシナリオにおける正確な制御実行と正確な物理的相互作用モデリングを実現する。
論文 参考訳(メタデータ) (2025-11-17T02:17:04Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - Whole-Body Conditioned Egocentric Video Prediction [98.94980209293776]
我々は、人間行動(PEVA)からエゴ中心のビデオを予測するモデルを訓練する。
身体の関節階層によって構成される運動的ポーズの軌跡を条件にすることで,人間の身体行動が1対1の視点から環境をどう形成するかをシミュレートする。
我々の研究は、複雑な現実世界の環境をモデル化し、人間の視点から映像を予測するエージェントの振る舞いを具体化するための最初の試みである。
論文 参考訳(メタデータ) (2025-06-26T17:59:59Z) - PRIMAL: Physically Reactive and Interactive Motor Model for Avatar Learning [38.004463823796286]
我々は,対話型アバターの運動系を生成運動モデルとして定式化する。
基礎モデルの最近の進歩に触発されて,我々はPRIMALを提案する。
このモデルを利用して、Unreal Engineでリアルタイムのキャラクターアニメーションシステムを作成します。
論文 参考訳(メタデータ) (2025-03-21T21:27:57Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。