論文の概要: IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation
- arxiv url: http://arxiv.org/abs/2605.16258v2
- Date: Thu, 21 May 2026 03:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.860757
- Title: IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation
- Title(参考訳): IVGT:ニューラルシーン表現のための視覚幾何学変換器
- Authors: Yuqi Wu, Tianyu Hu, Wenzhao Zheng, Yuanhui Huang, Haowen Sun, Jie Zhou, Jiwen Lu,
- Abstract要約: ポーズレス多視点画像から連続的かつ一貫性のある幾何を暗黙的にモデル化するインプリシトビジュアル幾何変換器IVGTを提案する。
IVGTは標準座標系で連続的なニューラルネットワークシーン表現を学習し、任意の3D位置での連続的な空間クエリをサポートする。
連続的かつコヒーレントな表面形状の直接抽出を可能にし、任意の視点からRGB画像、深度マップ、表面正規写像のレンダリングを可能にする。
- 参考スコア(独自算出の注目度): 76.36174247570716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing coherent 3D geometry and appearance from unposed multi-view images is a fundamental yet challenging problem in computer vision. Most existing visual geometry foundation models predict explicit geometry by regressing pixel-aligned pointmaps, often suffering from redundancy and limited geometric continuity. We propose IVGT, an Implicit Visual Geometry Transformer that implicitly models continuous and coherent geometry from pose-free multi-view images. This formulation learns a continuous neural scene representation in a canonical coordinate system and supports continuous spatial queries at any 3D positions, retrieving local features to predict signed distance (SDF) values and colors using lightweight decoders. It allows direct extraction of continuous and coherent surface geometry, enabling rendering of RGB images, depth maps, and surface normal maps from arbitrary viewpoints. We train IVGT via multi-dataset joint optimization with 2D supervision and 3D geometric regularization. IVGT demonstrates generalization across scenes and achieves strong performance on various tasks, including mesh and point cloud reconstruction, novel view synthesis, depth and surface normal estimation, and camera pose estimation.
- Abstract(参考訳): マルチビュー画像からのコヒーレントな3次元形状と外観の再構成は、コンピュータビジョンにおける根本的な課題である。
既存の視覚幾何学の基礎モデルは、しばしば冗長性と限られた幾何学的連続性に悩まされるピクセル整列点マップを回帰することで、明示的な幾何学を予測する。
ポーズレス多視点画像から連続的かつ一貫性のある幾何を暗黙的にモデル化するインプリシトビジュアル幾何変換器IVGTを提案する。
この定式化は、標準座標系における連続的なニューラルシーン表現を学習し、任意の3次元位置での連続的な空間的クエリをサポートし、符号付き距離(SDF)値と色を軽量デコーダを用いて予測するローカル特徴を検索する。
連続的かつコヒーレントな表面形状の直接抽出を可能にし、任意の視点からRGB画像、深度マップ、表面正規写像のレンダリングを可能にする。
我々は,2次元監督と3次元幾何正規化を併用したマルチデータセット共同最適化によりIVGTを訓練する。
IVGTは、シーン間の一般化を実証し、メッシュやポイントクラウドの再構築、新しいビュー合成、深さと表面の正規推定、カメラポーズ推定など、様々なタスクで強力なパフォーマンスを達成する。
関連論文リスト
- Face Anything: 4D Face Reconstruction from Any Image Sequence [49.395407357499074]
そこで本研究では,正準顔点予測に基づく高忠実度4次元顔再構成の統一手法を提案する。
深度と標準座標を共同で予測することにより,正確な深度推定,時間的に安定な再構築,密度の高い3次元形状,頑健な顔点追跡が可能となる。
論文 参考訳(メタデータ) (2026-04-21T17:22:39Z) - Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images [81.94999489820974]
UniSplat (UniSplat) は、未提示のマルチビュー画像から3D表現を学習するためのフィードフォワードフレームワークである。
エンコーダにおける幾何誘導を強化するデュアルマスキング戦略を導入する。
第2に,外見のセマンティックな矛盾を解消する粗大なガウス的スプレイティング戦略を開発する。
第3に、予測された3次元点と意味マップを画像平面に相互に関連付ける、ポーズ条件の補正機構を導入する。
論文 参考訳(メタデータ) (2026-04-12T10:36:18Z) - GGPT: Geometry Grounded Point Transformer [22.64445696362087]
本稿では,GGPT(Geometry-Grounded Point Transformer)について紹介する。
この基礎の上に構築された幾何誘導型3次元点変換器は,比例的な部分幾何学的監督の下で高密度点マップを洗練する。
論文 参考訳(メタデータ) (2026-03-11T18:00:04Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting [51.69408870574092]
汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
我々のフレームワークは、カメラのポーズ、内在性、深度マップなど、様々な幾何学的先入観を柔軟に統合する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、さまざまなベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-12T17:59:09Z) - Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文 参考訳(メタデータ) (2025-07-22T07:22:30Z) - G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View Images [45.66479596827045]
我々は,幾何誘導多視点合成手法により,幾何先行性を高めるための幾何強調型NeRF(G-NeRF)を提案する。
単一視点画像に対する多視点監視の欠如に対処するために,深度認識型トレーニングアプローチを設計する。
論文 参考訳(メタデータ) (2024-04-11T04:58:18Z) - SuperPrimitive: Scene Reconstruction at a Primitive Level [23.934492494774116]
共同カメラのポーズと画像やモノクロビデオからの密度の高い幾何学的推定は依然として難しい問題である。
多くの高密度増分再構成システムは、画像画素を直接操作し、多視点幾何学的手がかりを用いて3次元位置を解く。
我々はスーパープリミティブ(SuperPrimitive)と呼ばれる新しいイメージ表現でこの問題に対処する。
論文 参考訳(メタデータ) (2023-12-10T13:44:03Z) - Pix2Surf: Learning Parametric 3D Surface Models of Objects from Images [64.53227129573293]
1つ以上の視点から見れば、新しいオブジェクトの3次元パラメトリック表面表現を学習する際の課題について検討する。
ビュー間で一貫した高品質なパラメトリックな3次元表面を生成できるニューラルネットワークを設計する。
提案手法は,共通対象カテゴリからの形状の公開データセットに基づいて,教師と訓練を行う。
論文 参考訳(メタデータ) (2020-08-18T06:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。