論文の概要: TesserAct: Learning 4D Embodied World Models
- arxiv url: http://arxiv.org/abs/2504.20995v1
- Date: Tue, 29 Apr 2025 17:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.038249
- Title: TesserAct: Learning 4D Embodied World Models
- Title(参考訳): TesserAct: 4D Embodied World Modelsを学習
- Authors: Haoyu Zhen, Qiao Sun, Hongxin Zhang, Junyan Li, Siyuan Zhou, Yilun Du, Chuang Gan,
- Abstract要約: 我々は、RGB-DN(RGB、Depth、Normal)ビデオのトレーニングにより、4Dワールドモデルを学ぶ。
これは従来の2次元モデルを超えるだけでなく、その予測に詳細な形状、構成、時間的変化を組み込むことで、エンボディエージェントの正確な逆動的モデルを効果的に学習することができる。
- 参考スコア(独自算出の注目度): 66.8519958275311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an effective approach for learning novel 4D embodied world models, which predict the dynamic evolution of 3D scenes over time in response to an embodied agent's actions, providing both spatial and temporal consistency. We propose to learn a 4D world model by training on RGB-DN (RGB, Depth, and Normal) videos. This not only surpasses traditional 2D models by incorporating detailed shape, configuration, and temporal changes into their predictions, but also allows us to effectively learn accurate inverse dynamic models for an embodied agent. Specifically, we first extend existing robotic manipulation video datasets with depth and normal information leveraging off-the-shelf models. Next, we fine-tune a video generation model on this annotated dataset, which jointly predicts RGB-DN (RGB, Depth, and Normal) for each frame. We then present an algorithm to directly convert generated RGB, Depth, and Normal videos into a high-quality 4D scene of the world. Our method ensures temporal and spatial coherence in 4D scene predictions from embodied scenarios, enables novel view synthesis for embodied environments, and facilitates policy learning that significantly outperforms those derived from prior video-based world models.
- Abstract(参考訳): 本稿では, 空間的, 時間的整合性のある3次元シーンの動的進化を時間とともに予測する, 新たな4次元エンボディドワールドモデルを学習するための効果的なアプローチを提案する。
我々は,RGB-DN(RGB,Depth,Normal)ビデオのトレーニングによって4次元世界モデルを学ぶことを提案する。
これは従来の2次元モデルを超えるだけでなく、その予測に詳細な形状、構成、時間的変化を組み込むことで、エンボディエージェントの正確な逆動的モデルを効果的に学習することができる。
具体的には、既成のロボット操作ビデオデータセットを、既成のモデルを利用した奥行きと通常の情報で拡張する。
次に,RGB-DN(RGB,Depth,Normal)を各フレームで共同で予測するアノテーション付きデータセット上で,ビデオ生成モデルを微調整する。
次に、生成したRGB、Depth、Normalビデオを直接、高品質な4Dシーンに変換するアルゴリズムを提案する。
本手法は,4次元シーン予測における時間的・空間的コヒーレンスを具現化シナリオから保証し,具現化環境のための新しいビュー合成を可能にするとともに,従来の映像ベース世界モデルから派生したものを著しく上回るポリシー学習を容易にする。
関連論文リスト
- Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction [72.54905331756076]
動的シーンのモノクロ3次元再構成にビデオ拡散モデルを再利用するGeo4Dを提案する。
このようなビデオモデルによってキャプチャされた強いダイナミックな事前情報を活用することで、Geo4Dは合成データのみを使用して訓練することができる。
論文 参考訳(メタデータ) (2025-04-10T17:59:55Z) - Free4D: Tuning-free 4D Scene Generation with Spatial-Temporal Consistency [49.875459658889355]
Free4Dは、単一の画像から4Dシーンを生成するためのチューニング不要のフレームワークである。
我々の重要な洞察は、一貫した4次元シーン表現のために、事前訓練された基礎モデルを蒸留することである。
結果の4D表現はリアルタイムで制御可能なレンダリングを可能にする。
論文 参考訳(メタデータ) (2025-03-26T17:59:44Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。
本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。
このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。
特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - Neural 4D Evolution under Large Topological Changes from 2D Images [5.678824325812255]
本研究では,大きなトポロジ的変化の下での3次元神経進化を4次元に拡張する上での課題に対処する。
i) 変形を識別・符号化する新しいアーキテクチャを導入し, SDF を学習し, (ii) 時間的一貫性を強制する手法を提案する。
2次元画像から直接の学習を容易にするために,RGB画像から幾何学や外観を遠ざける学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T15:47:42Z) - 4Real: Towards Photorealistic 4D Scene Generation via Video Diffusion Models [53.89348957053395]
テキストから4Dシーン生成のための新しいパイプラインを提案する。
提案手法は,ビデオ生成モデルを用いて参照ビデオを生成することから始まる。
次に、凍結時間ビデオを用いて、ビデオの標準的な3D表現を学習する。
論文 参考訳(メタデータ) (2024-06-11T17:19:26Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。