論文の概要: UniQueR: Unified Query-based Feedforward 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2603.22851v1
- Date: Tue, 24 Mar 2026 06:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.337082
- Title: UniQueR: Unified Query-based Feedforward 3D Reconstruction
- Title(参考訳): UniQueR: 統一クエリベースのフィードフォワード3D再構成
- Authors: Chensheng Peng, Quentin Herau, Jiezhi Yang, Yichen Xie, Yihan Hu, Wenzhao Zheng, Matthew Strong, Masayoshi Tomizuka, Wei Zhan,
- Abstract要約: 提案するUniQueRは,未提示画像からの3次元再構成を効率よく正確に行うための,クエリベースの統合フィードフォワードフレームワークである。
我々のモデルは、明示的な幾何学的クエリとして機能する3Dアンカー点のコンパクトな集合を学習する。
Mip-NeRF 360とVR-NeRFの実験により、UniQueRはレンダリング品質と幾何学的精度の両方において最先端のフィードフォワード法を上回ることを示した。
- 参考スコア(独自算出の注目度): 68.01984215138098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present UniQueR, a unified query-based feedforward framework for efficient and accurate 3D reconstruction from unposed images. Existing feedforward models such as DUSt3R, VGGT, and AnySplat typically predict per-pixel point maps or pixel-aligned Gaussians, which remain fundamentally 2.5D and limited to visible surfaces. In contrast, UniQueR formulates reconstruction as a sparse 3D query inference problem. Our model learns a compact set of 3D anchor points that act as explicit geometric queries, enabling the network to infer scene structure, including geometry in occluded regions--in a single forward pass. Each query encodes spatial and appearance priors directly in global 3D space (instead of per-frame camera space) and spawns a set of 3D Gaussians for differentiable rendering. By leveraging unified query interactions across multi-view features and a decoupled cross-attention design, UniQueR achieves strong geometric expressiveness while substantially reducing memory and computational cost. Experiments on Mip-NeRF 360 and VR-NeRF demonstrate that UniQueR surpasses state-of-the-art feedforward methods in both rendering quality and geometric accuracy, using an order of magnitude fewer primitives than dense alternatives.
- Abstract(参考訳): 提案するUniQueRは,未提示画像からの3次元再構成を効率よく正確に行うための,クエリベースの統合フィードフォワードフレームワークである。
DUSt3R、VGGT、AnySplatといった既存のフィードフォワードモデルでは、基本的に2.5Dのままで可視面に限られるピクセルごとのポイントマップやガウスを予測できる。
対照的に、UniQueRはスパース3Dクエリ推論問題として再構成を定式化している。
我々のモデルは、3次元アンカーポイントのコンパクトな集合を明示的な幾何学的クエリとして学習し、ネットワークは1つのフォワードパスにおいて、閉鎖領域の幾何学を含むシーン構造を推論できる。
各クエリは、グローバルな3D空間(フレーム単位のカメラ空間ではなく)に直接空間と外観をエンコードし、異なるレンダリングのための3Dガウスのセットを生成する。
マルチビュー機能間の統合クエリインタラクションと分離されたクロスアテンション設計を活用することで、UniQueRは、メモリと計算コストを大幅に削減しつつ、強力な幾何学的表現性を実現する。
Mip-NeRF 360 と VR-NeRF の実験では、UniQueR はレンダリング品質と幾何学的精度の両方において最先端のフィードフォワード法を超越し、高密度な代替品よりも桁違いにプリミティブを減らした。
関連論文リスト
- 2Xplat: Two Experts Are Better Than One Generalist [22.824154073395878]
本稿では,ポーズフリーフィードフォワード3DGSフレームワークである2Xplatを紹介する。
専用の幾何学の専門家が最初にカメラのポーズを予測し、3Dガウスを合成する強力な外見の専門家に明示的に渡される。
その概念的単純さは先行研究で大半が過小評価されているにもかかわらず、提案手法は極めて効果的であることが証明されている。
論文 参考訳(メタデータ) (2026-03-22T05:14:38Z) - SaLon3R: Structure-aware Long-term Generalizable 3D Reconstruction from Unposed Images [31.94503176488054]
SaLon3Rは構造対応の長期3DGS再構成のための新しいフレームワークである。
10 FPS以上で50以上のビューを再構築でき、50%から90%の冗長性除去が可能である。
提案手法は, 1回のフィードフォワードパスにおいて, アーティファクトを効果的に解決し, 冗長な3DGSを創出する。
論文 参考訳(メタデータ) (2025-10-16T18:37:10Z) - WorldMirror: Universal 3D World Reconstruction with Any-Prior Prompting [51.69408870574092]
汎用的な3次元幾何予測タスクのためのオールインワンフィードフォワードモデルであるWorldMirrorを提案する。
我々のフレームワークは、カメラのポーズ、内在性、深度マップなど、様々な幾何学的先入観を柔軟に統合する。
WorldMirrorは、カメラ、ポイントマップ、深さ、表面正規推定から新しいビュー合成に至るまで、さまざまなベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-12T17:59:09Z) - UniLat3D: Geometry-Appearance Unified Latents for Single-Stage 3D Generation [98.40254523605581]
UniLat3Dは、単一の潜在空間における幾何学と外観を符号化する統一されたフレームワークである。
我々の重要な貢献は、高分解能スパース特徴をコンパクトな潜在表現に圧縮する幾何学的外観統一VAEである。
UniLat3Dは、1枚の画像から数秒で高品質な3Dアセットを生成する。
論文 参考訳(メタデータ) (2025-09-29T17:21:23Z) - DiMeR: Disentangled Mesh Reconstruction Model [29.827345186012558]
DiMeRは、疎視メッシュ再構成のための3次元監視を備えた、幾何学的・テクスチュアなアンタングルフィードフォワードモデルである。
性能/コストの低いモジュールを排除し,正規化損失を再設計し,メッシュ抽出のアルゴリズムを効率化する。
大規模な実験により、DiMeRはスパースビュー、シングルイメージ、テキストから3Dタスクにまたがって一般化し、ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-24T15:39:20Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - FIRe: Fast Inverse Rendering using Directional and Signed Distance
Functions [97.5540646069663]
指向性距離関数(DDF)と呼ばれる新しいニューラルシーン表現を導入する。
DDFは単位球上で定義され、任意の方向に沿って表面までの距離を予測する。
提案手法はDDFに基づいて,提案した深度マップから3次元形状を再構成する高速アルゴリズム (FIRe) を提案する。
論文 参考訳(メタデータ) (2022-03-30T13:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。