論文の概要: Aether: Geometric-Aware Unified World Modeling
- arxiv url: http://arxiv.org/abs/2503.18945v2
- Date: Tue, 25 Mar 2025 15:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 10:43:49.754891
- Title: Aether: Geometric-Aware Unified World Modeling
- Title(参考訳): Aether: 幾何学的認識による統一世界モデリング
- Authors: Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He,
- Abstract要約: Aetherは、世界モデルにおける幾何学的推論を可能にする統一されたフレームワークである。
動作追従タスクと再構成タスクの両方においてゼロショットの一般化を実現する。
私たちの研究がコミュニティに、物理的に理にかなった世界モデリングにおける新たなフロンティアを探求させることを期待しています。
- 参考スコア(独自算出の注目度): 49.33579903601599
- License:
- Abstract: The integration of geometric reconstruction and generative modeling remains a critical challenge in developing AI systems capable of human-like spatial reasoning. This paper proposes Aether, a unified framework that enables geometry-aware reasoning in world models by jointly optimizing three core capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video prediction, and (3) goal-conditioned visual planning. Through task-interleaved feature learning, Aether achieves synergistic knowledge sharing across reconstruction, prediction, and planning objectives. Building upon video generation models, our framework demonstrates unprecedented synthetic-to-real generalization despite never observing real-world data during training. Furthermore, our approach achieves zero-shot generalization in both action following and reconstruction tasks, thanks to its intrinsic geometric modeling. Remarkably, even without real-world data, its reconstruction performance is comparable with or even better than that of domain-specific models. Additionally, Aether employs camera trajectories as geometry-informed action spaces, enabling effective action-conditioned prediction and visual planning. We hope our work inspires the community to explore new frontiers in physically-reasonable world modeling and its applications.
- Abstract(参考訳): 幾何学的再構成と生成モデリングの統合は、人間のような空間推論が可能なAIシステムを開発する上で、依然として重要な課題である。
本稿では,(1)4次元動的再構成,(2)動作条件付き映像予測,(3)目標条件付き視覚計画という3つのコア機能を共同で最適化することで,世界モデルにおける幾何認識推論を可能にする統合フレームワークであるAetherを提案する。
タスクインターリーブな特徴学習を通じて、Aetherは、再構築、予測、計画目的をまたいだ相乗的知識共有を達成する。
映像生成モデルに基づいて,本フレームワークはトレーニング中に実世界のデータを観測することなく,前代未聞の合成から現実への一般化を実証する。
さらに本手法は,本質的な幾何学的モデリングにより,動作追従タスクと再構成タスクの両方においてゼロショットの一般化を実現する。
注目すべきは、実世界のデータがなくても、その再構築性能はドメイン固有のモデルと同等か、それ以上に優れていることだ。
さらに、Aetherはカメラトラジェクトリを幾何学的インフォームドなアクション空間として採用し、効果的なアクション条件付き予測と視覚計画を可能にしている。
私たちの研究がコミュニティに、物理的に理にかなった世界モデリングとその応用における新たなフロンティアを探求させることを期待しています。
関連論文リスト
- A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Gaussian Object Carver: Object-Compositional Gaussian Splatting with surfaces completion [16.379647695019308]
3Dシーンの再構築はコンピュータビジョンの基本的な問題である。
本稿では,Gaussian Object Carver (GOC)を紹介した。
GOCは、高品質で柔軟な再構築を実現するために、モノクラー幾何学の先行と多視点幾何学の正規化に富んだ3Dガウススプラッティング(GS)を利用する。
論文 参考訳(メタデータ) (2024-12-03T01:34:39Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - S3O: A Dual-Phase Approach for Reconstructing Dynamic Shape and Skeleton of Articulated Objects from Single Monocular Video [13.510513575340106]
単一の単眼映像から動的に調音された物体を再構成することは困難であり、限られた視点から形状、動き、カメラパラメータを共同で推定する必要がある。
可視形状や下層の骨格を含むパラメトリックモデルを効率的に学習する新しい2相法であるS3Oを提案する。
標準ベンチマークとPlanetZooデータセットの実験により、S3Oはより正確な3D再構成と可塑性骨格を提供し、最先端技術と比較してトレーニング時間を約60%短縮することを確認した。
論文 参考訳(メタデータ) (2024-05-21T09:01:00Z) - REACTO: Reconstructing Articulated Objects from a Single Video [64.89760223391573]
関節の柔軟な変形を維持しつつ各部の剛性を向上する新しい変形モデルを提案する。
提案手法は, 従来よりも高忠実度な3D再構成を実現する上で, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-17T08:01:55Z) - Scalable Scene Modeling from Perspective Imaging: Physics-based Appearance and Geometry Inference [3.2229099973277076]
論文は3Dシーンモデリングをその最先端に進める貢献のごく一部を提示する。
一般的なディープラーニング手法とは対照的に、この論文は第一原理に従うアルゴリズムの開発を目的としている。
論文 参考訳(メタデータ) (2024-04-01T17:09:40Z) - Exploiting Priors from 3D Diffusion Models for RGB-Based One-Shot View Planning [24.44253219419552]
本稿では,拡散モデルの強力な3次元生成能力を先行として活用したワンショットビュー計画手法を提案する。
シミュレーションと実環境における実験により, オブジェクト再構成の品質と移動コストのバランスが良好であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T14:21:49Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - Unifying Correspondence, Pose and NeRF for Pose-Free Novel View Synthesis from Stereo Pairs [57.492124844326206]
この研究は、3次元視覚における挑戦的で先駆的な課題であるステレオペアからのポーズレスノベルビュー合成の課題に踏み込んだ。
我々の革新的なフレームワークは、これまでとは違って、シームレスに2D対応マッチング、カメラポーズ推定、NeRFレンダリングを統合し、これらのタスクの相乗的強化を促進します。
論文 参考訳(メタデータ) (2023-12-12T13:22:44Z) - LIST: Learning Implicitly from Spatial Transformers for Single-View 3D
Reconstruction [5.107705550575662]
Listは、局所的およびグローバルな画像特徴を活用して、単一の画像から3Dオブジェクトの幾何学的および位相的構造を再構築する、新しいニューラルネットワークである。
合成画像と実世界の画像から3Dオブジェクトを再構成する際のモデルの有用性を示す。
論文 参考訳(メタデータ) (2023-07-23T01:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。