論文の概要: WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting
- arxiv url: http://arxiv.org/abs/2510.10726v1
- Date: Sun, 12 Oct 2025 17:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.085018
- Title: WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting
- Title(参考訳): WorldMirror:万能3Dワールドレコンストラクション
- Authors: Yifan Liu, Zhiyuan Min, Zhenwei Wang, Junta Wu, Tengfei Wang, Yixuan Yuan, Yawei Luo, Chunchao Guo,
- Abstract要約: 汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
我々のフレームワークは、カメラのポーズ、内在性、深度マップなど、様々な幾何学的先入観を柔軟に統合する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、さまざまなベンチマークで最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 51.69408870574092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present WorldMirror, an all-in-one, feed-forward model for versatile 3D geometric prediction tasks. Unlike existing methods constrained to image-only inputs or customized for a specific task, our framework flexibly integrates diverse geometric priors, including camera poses, intrinsics, and depth maps, while simultaneously generating multiple 3D representations: dense point clouds, multi-view depth maps, camera parameters, surface normals, and 3D Gaussians. This elegant and unified architecture leverages available prior information to resolve structural ambiguities and delivers geometrically consistent 3D outputs in a single forward pass. WorldMirror achieves state-of-the-art performance across diverse benchmarks from camera, point map, depth, and surface normal estimation to novel view synthesis, while maintaining the efficiency of feed-forward inference. Code and models will be publicly available soon.
- Abstract(参考訳): 汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
画像のみの入力に制約されたり、特定のタスクにカスタマイズされた既存の手法とは異なり、我々のフレームワークは、カメラのポーズ、内在性、深度マップを含む多様な幾何学的事前情報を柔軟に統合し、同時に複数の3D表現を生成する。
このエレガントで統一されたアーキテクチャは、利用可能な事前情報を利用して構造的曖昧さを解決し、幾何学的に一貫した3D出力を単一の前方通過で提供する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、様々なベンチマークで最先端のパフォーマンスを達成し、フィードフォワード推論の効率を維持している。
コードとモデルは近く公開される。
関連論文リスト
- EA3D: Online Open-World 3D Object Extraction from Streaming Videos [55.48835711373918]
オープンワールド3Dオブジェクト抽出のための統合オンラインフレームワークであるExtractAnything3D(EA3D)を提案する。
ストリーミングビデオが与えられると、EA3Dは視覚言語と2D視覚基盤エンコーダを使用して各フレームを動的に解釈し、オブジェクトレベルの知識を抽出する。
リカレントな共同最適化モジュールは、モデルの関心領域への注意を向け、幾何学的再構成と意味的理解の両面を同時に強化する。
論文 参考訳(メタデータ) (2025-10-29T03:56:41Z) - MapAnything: Universal Feed-Forward Metric 3D Reconstruction [63.79151976126576]
MapAnythingは1つ以上の画像を取り込み、カメラの内在性、ポーズ、深さ、部分的な再構築など、任意の幾何学的入力を行う。
そして、メーター3Dシーンの幾何学とカメラを直接補強する。
MapAnythingは、単一のフィードフォワードパスで幅広い3Dビジョンタスクに対処する。
論文 参考訳(メタデータ) (2025-09-16T18:00:14Z) - Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文 参考訳(メタデータ) (2025-07-22T07:22:30Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - MUSt3R: Multi-view Network for Stereo 3D Reconstruction [11.61182864709518]
本稿では,DUSt3Rのペアから複数のビューへの拡張を提案する。
計算複雑性を低減できる多層メモリ機構でモデルを拡張します。
このフレームワークは、オフラインとオンラインの両方で3D再構成を実行するように設計されているため、SfMとビジュアルSLAMシナリオにシームレスに適用できる。
論文 参考訳(メタデータ) (2025-03-03T15:36:07Z) - FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [100.45129752375658]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文 参考訳(メタデータ) (2025-02-17T18:54:05Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - Omni-Recon: Harnessing Image-based Rendering for General-Purpose Neural Radiance Fields [29.573344213110172]
Omni-Reconと呼ばれるフレームワークは、(1)一般化可能な3D再構成とゼロショットマルチタスクシーン理解、(2)リアルタイムレンダリングやシーン編集といった様々な下流3Dアプリケーションへの適応性を実現する。
具体的には、Omni-Reconは2つの分離枝を持つ画像ベースレンダリングを用いた汎用NeRFモデルを備えている。
この設計は、ゼロショットマルチタスクシーン理解のために、様々なタスクで再利用可能なブレンディングウェイトを用いて、最先端(SOTA)の一般化可能な3次元表面再構成品質を実現する。
論文 参考訳(メタデータ) (2024-03-17T07:47:26Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。