論文の概要: VG3T: Visual Geometry Grounded Gaussian Transformer
- arxiv url: http://arxiv.org/abs/2512.05988v1
- Date: Fri, 28 Nov 2025 07:27:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 04:16:52.498472
- Title: VG3T: Visual Geometry Grounded Gaussian Transformer
- Title(参考訳): VG3T:ビジュアル幾何学接地ガウス変換器
- Authors: Junho Kim, Seongwon Lee,
- Abstract要約: VG3Tは、新しい多視点フィードフォワードネットワークであり、3Dガウス表現を介して3Dセマンティック占有を予測している。
従来のnuScenesベンチマークよりもプリミティブが46%少ないのに対して、mIoUは1.7%向上した。
- 参考スコア(独自算出の注目度): 18.15986152198467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating a coherent 3D scene representation from multi-view images is a fundamental yet challenging task. Existing methods often struggle with multi-view fusion, leading to fragmented 3D representations and sub-optimal performance. To address this, we introduce VG3T, a novel multi-view feed-forward network that predicts a 3D semantic occupancy via a 3D Gaussian representation. Unlike prior methods that infer Gaussians from single-view images, our model directly predicts a set of semantically attributed Gaussians in a joint, multi-view fashion. This novel approach overcomes the fragmentation and inconsistency inherent in view-by-view processing, offering a unified paradigm to represent both geometry and semantics. We also introduce two key components, Grid-Based Sampling and Positional Refinement, to mitigate the distance-dependent density bias common in pixel-aligned Gaussian initialization methods. Our VG3T shows a notable 1.7%p improvement in mIoU while using 46% fewer primitives than the previous state-of-the-art on the nuScenes benchmark, highlighting its superior efficiency and performance.
- Abstract(参考訳): 多視点画像からコヒーレントな3Dシーン表現を生成することは、基本的な課題である。
既存の方法は多視点融合に苦しむことが多く、断片化された3D表現と準最適性能に繋がる。
そこで本研究では,VG3Tを提案する。VG3Tは,3次元ガウス表現による3次元セマンティック占有の予測を行う,新しいマルチビューフィードフォワードネットワークである。
単一視点画像からガウスを推定する従来の手法とは異なり、我々のモデルは連続した多視点で意味論的に属性付けられたガウスの集合を直接予測する。
この新しいアプローチはビュー・バイ・ビュー処理に固有の断片化と矛盾を克服し、幾何学と意味論の両方を表現する統一されたパラダイムを提供する。
また,Grid-Based Smpling と positional Refinement という2つの重要な要素を導入し,画素配向ガウス初期化法に共通する距離依存密度バイアスを緩和する。
我々のVG3Tは、mIoUが1.7%改善されているのに対して、従来のnuScenesベンチマークよりもプリミティブが46%少ないことを示し、その優れた効率と性能を強調しています。
関連論文リスト
- OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View [74.58230239274123]
一般化可能な3次元再構成において視野を拡大するオープンガウス成長法であるOGGSplatを提案する。
我々の重要な洞察は、オープンガウスのセマンティックな属性が、画像外挿の強い先行性を提供するということである。
OGGSplatはまた、スマートフォンカメラから直接撮影される2つのビューイメージを備えた場合、有望なセマンティック・アウェア・シーン再構築機能を示す。
論文 参考訳(メタデータ) (2025-06-05T16:17:18Z) - CrossView-GS: Cross-view Gaussian Splatting For Large-scale Scene Reconstruction [5.528874948395173]
マルチブランチ構築と融合に基づく大規模シーン再構築のための新しいクロスビューガウス分割法を提案する。
本手法は,最先端の手法と比較して,新規なビュー合成における優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-03T08:24:59Z) - NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - UniGS: Modeling Unitary 3D Gaussians for Novel View Synthesis from Sparse-view Images [20.089890859122168]
我々は,新しい3次元ガウス再構成と新しいビュー合成モデルであるUniGSを紹介する。
UniGSは、任意の数のスパースビュー画像から3Dガウスの高忠実度表現を予測する。
論文 参考訳(メタデータ) (2024-10-17T03:48:02Z) - MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [100.90743697473232]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
スパースビューからのシーン再構成が可能な3次元ガウススプラッティングに基づくビュー合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z) - MVSplat: Efficient 3D Gaussian Splatting from Sparse Multi-View Images [102.7646120414055]
入力としてスパースなマルチビュー画像を与えられたMVSplatは、クリーンなフィードフォワード3Dガウスを予測できる。
大規模RealEstate10KとACIDベンチマークでは、MVSplatは高速フィードフォワード推論速度(22fps)で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-21T17:59:58Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文 参考訳(メタデータ) (2024-03-15T02:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。