論文の概要: NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2603.04179v2
- Date: Thu, 05 Mar 2026 14:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 15:25:24.456976
- Title: NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction
- Title(参考訳): NOVA3R:アモーダル3次元再構成のための非画素対応ビジュアルトランス
- Authors: Weirong Chen, Chuanxia Zheng, Ganlin Zhang, Andrea Vedaldi, Daniel Cremers,
- Abstract要約: NOVA3Rは、フィードフォワード方式で、未提示画像の集合から非画素アラインな3D再構成に有効なアプローチである。
重なり合う領域における重複構造の少ない物理的に可算な幾何学を生成する。
復元精度と完全性の観点から、最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 99.52487968452198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present NOVA3R, an effective approach for non-pixel-aligned 3D reconstruction from a set of unposed images in a feed-forward manner. Unlike pixel-aligned methods that tie geometry to per-ray predictions, our formulation learns a global, view-agnostic scene representation that decouples reconstruction from pixel alignment. This addresses two key limitations in pixel-aligned 3D: (1) it recovers both visible and invisible points with a complete scene representation, and (2) it produces physically plausible geometry with fewer duplicated structures in overlapping regions. To achieve this, we introduce a scene-token mechanism that aggregates information across unposed images and a diffusion-based 3D decoder that reconstructs complete, non-pixel-aligned point clouds. Extensive experiments on both scene-level and object-level datasets demonstrate that NOVA3R outperforms state-of-the-art methods in terms of reconstruction accuracy and completeness.
- Abstract(参考訳): フィードフォワード方式で画像の集合から非画素アラインな3次元再構成を効果的に行うNOVA3Rを提案する。
幾何学と線毎の予測を結びつけるピクセルアライメント法とは異なり、我々の定式化は、画素アライメントから再構成を分離するグローバルなビュー非依存のシーン表現を学習する。
この手法は, ピクセルアライメント3Dにおける2つの重要な限界に対処する: 1) 完全なシーン表現で可視点と見えない点の両方を復元し, (2) 重なり合う領域における重複構造が少なく, 物理的に可視な幾何学を生成する。
これを実現するために、未提示画像にまたがる情報を集約するシーンツーケン機構と、完全な非画素整合点雲を再構成する拡散ベースの3Dデコーダを導入する。
シーンレベルのデータセットとオブジェクトレベルのデータセットの大規模な実験は、NOVA3Rが再現精度と完全性の観点から最先端の手法より優れていることを示した。
関連論文リスト
- PlückeRF: A Line-based 3D Representation for Few-view Reconstruction [14.344029183977046]
マルチビュー情報をより効果的に活用する数ビュー再構成モデルを提案する。
提案手法では,入力ビューから3次元表現と画素線を接続するシンプルな機構を導入する。
等価な三面体表現による再構成品質の向上を実証する。
論文 参考訳(メタデータ) (2025-06-04T08:45:48Z) - HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。
ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。
提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文 参考訳(メタデータ) (2025-03-27T09:45:09Z) - 3DFIRES: Few Image 3D REconstruction for Scenes with Hidden Surface [8.824340350342512]
3DFIRESは、ポーズ画像からシーンレベルの3D再構成を行う新しいシステムである。
単一視点再構成法の有効性を1つの入力で示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:50Z) - 2L3: Lifting Imperfect Generated 2D Images into Accurate 3D [16.66666619143761]
マルチビュー(MV)3次元再構成は,生成したMV画像を一貫した3次元オブジェクトに融合させる,有望なソリューションである。
しかし、生成された画像は、通常、一貫性のない照明、不整合幾何学、スパースビューに悩まされ、復元の質が低下する。
本稿では, 内在的分解誘導, 過渡的モノ先行誘導, および3つの問題に対処するための視認性向上を活用する新しい3次元再構成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T02:30:31Z) - Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture [47.44029968307207]
本研究では,物体の形状とテクスチャを同時に高忠実度に再現する新しい枠組みを提案する。
提案手法は,SSR(Single-view Neural implicit Shape and Radiance Field)表現を用いて,明示的な3次元形状制御とボリュームレンダリングの両方を活用する。
我々のフレームワークの特徴は、単一のビュー3D再構成モデルにレンダリング機能をシームレスに統合しながら、きめ細かいテクスチャメッシュを生成する能力である。
論文 参考訳(メタデータ) (2023-11-01T11:46:15Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Neural 3D Reconstruction in the Wild [86.6264706256377]
そこで我々は,インターネット写真コレクションから効率よく高精度な表面再構成を実現する新しい手法を提案する。
そこで本研究では,これらのシーンにおける再構成性能を評価するための新しいベンチマークとプロトコルを提案する。
論文 参考訳(メタデータ) (2022-05-25T17:59:53Z) - GaussiGAN: Controllable Image Synthesis with 3D Gaussians from Unposed
Silhouettes [48.642181362172906]
対象物の粗い3次元表現を多視点2次元マスク監視から学習するアルゴリズムを提案する。
既存のボクセルを用いた物体再構成法とは対照的に,提案手法は生成した形状やポーズを表現することを学ぶ。
リアル照明を用いた合成データセットの結果を示し、対話的なポーズによるオブジェクト挿入を実証する。
論文 参考訳(メタデータ) (2021-06-24T17:47:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。