論文の概要: WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting
- arxiv url: http://arxiv.org/abs/2510.10726v1
- Date: Sun, 12 Oct 2025 17:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.085018
- Title: WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting
- Title(参考訳): WorldMirror:万能3Dワールドレコンストラクション
- Authors: Yifan Liu, Zhiyuan Min, Zhenwei Wang, Junta Wu, Tengfei Wang, Yixuan Yuan, Yawei Luo, Chunchao Guo,
- Abstract要約: 汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
我々のフレームワークは、カメラのポーズ、内在性、深度マップなど、様々な幾何学的先入観を柔軟に統合する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、さまざまなベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 51.69408870574092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present WorldMirror, an all-in-one, feed-forward model for versatile 3D geometric prediction tasks. Unlike existing methods constrained to image-only inputs or customized for a specific task, our framework flexibly integrates diverse geometric priors, including camera poses, intrinsics, and depth maps, while simultaneously generating multiple 3D representations: dense point clouds, multi-view depth maps, camera parameters, surface normals, and 3D Gaussians. This elegant and unified architecture leverages available prior information to resolve structural ambiguities and delivers geometrically consistent 3D outputs in a single forward pass. WorldMirror achieves state-of-the-art performance across diverse benchmarks from camera, point map, depth, and surface normal estimation to novel view synthesis, while maintaining the efficiency of feed-forward inference. Code and models will be publicly available soon.
- Abstract(参考訳): 汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
画像のみの入力に制約されたり、特定のタスクにカスタマイズされた既存の手法とは異なり、我々のフレームワークは、カメラのポーズ、内在性、深度マップを含む多様な幾何学的事前情報を柔軟に統合し、同時に複数の3D表現を生成する。
このエレガントで統一されたアーキテクチャは、利用可能な事前情報を利用して構造的曖昧さを解決し、幾何学的に一貫した3D出力を単一の前方通過で提供する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、様々なベンチマークで最先端のパフォーマンスを達成し、フィードフォワード推論の効率を維持している。
コードとモデルは近く公開される。
関連論文リスト
- MapAnything: Universal Feed-Forward Metric 3D Reconstruction [63.79151976126576]
MapAnythingは1つ以上の画像を取り込み、カメラの内在性、ポーズ、深さ、部分的な再構築など、任意の幾何学的入力を行う。
そして、メーター3Dシーンの幾何学とカメラを直接補強する。
MapAnythingは、単一のフィードフォワードパスで幅広い3Dビジョンタスクに対処する。
論文 参考訳(メタデータ) (2025-09-16T18:00:14Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。