論文の概要: GVSynergy-Det: Synergistic Gaussian-Voxel Representations for Multi-View 3D Object Detection
- arxiv url: http://arxiv.org/abs/2512.23176v1
- Date: Mon, 29 Dec 2025 03:34:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.394496
- Title: GVSynergy-Det: Synergistic Gaussian-Voxel Representations for Multi-View 3D Object Detection
- Title(参考訳): GVSynergy-Det:多視点3次元物体検出のための相乗的ガウス・ボクセル表現
- Authors: Yi Zhang, Yi Wang, Lei Yao, Lap-Pui Chau,
- Abstract要約: 画像に基づく3Dオブジェクト検出は、RGB画像のみを使用して3D空間内のオブジェクトを識別およびローカライズすることを目的としている。
既存の画像ベースのアプローチは、2つの重要な課題に直面している。
本稿では,GVSynergy-Detを提案する。GVSynergy-Detは,相乗的ガウス・ボクセル表現学習による3次元検出を強化するフレームワークである。
- 参考スコア(独自算出の注目度): 18.809986709717446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based 3D object detection aims to identify and localize objects in 3D space using only RGB images, eliminating the need for expensive depth sensors required by point cloud-based methods. Existing image-based approaches face two critical challenges: methods achieving high accuracy typically require dense 3D supervision, while those operating without such supervision struggle to extract accurate geometry from images alone. In this paper, we present GVSynergy-Det, a novel framework that enhances 3D detection through synergistic Gaussian-Voxel representation learning. Our key insight is that continuous Gaussian and discrete voxel representations capture complementary geometric information: Gaussians excel at modeling fine-grained surface details while voxels provide structured spatial context. We introduce a dual-representation architecture that: 1) adapts generalizable Gaussian Splatting to extract complementary geometric features for detection tasks, and 2) develops a cross-representation enhancement mechanism that enriches voxel features with geometric details from Gaussian fields. Unlike previous methods that either rely on time-consuming per-scene optimization or utilize Gaussian representations solely for depth regularization, our synergistic strategy directly leverages features from both representations through learnable integration, enabling more accurate object localization. Extensive experiments demonstrate that GVSynergy-Det achieves state-of-the-art results on challenging indoor benchmarks, significantly outperforming existing methods on both ScanNetV2 and ARKitScenes datasets, all without requiring any depth or dense 3D geometry supervision (e.g., point clouds or TSDF).
- Abstract(参考訳): 画像に基づく3Dオブジェクト検出は、RGB画像のみを使用して3D空間内のオブジェクトを特定し、ローカライズすることを目的としている。
既存の画像ベースのアプローチは、2つの重要な課題に直面している。高い精度を達成するには、通常、密集した3Dの監督が必要である。
本稿では,GVSynergy-Detを提案する。GVSynergy-Detは,相乗的ガウス・ボクセル表現学習による3次元検出を強化するフレームワークである。
我々の重要な洞察は、連続ガウスおよび離散ボクセル表現が相補的な幾何学的情報を取得することである: ガウスは微細な表面の詳細をモデル化し、ボクセルは構造化された空間的文脈を提供する。
二重表現アーキテクチャを導入します。
1) 一般化可能なガウススプラッティングを適用して、検出タスクの相補的な幾何学的特徴を抽出し、
2) ガウス場からの幾何学的詳細でボクセル特徴を豊かにするクロス表現拡張機構を開発する。
時間を要するシーンごとの最適化や、奥行き正規化のみにガウス表現を利用する従来の手法とは異なり、我々のシナジスティック戦略は、学習可能な統合を通じて両方の表現の特徴を直接活用し、より正確なオブジェクトローカライゼーションを可能にする。
GVSynergy-Detは、ScanNetV2とARKitScenesのデータセットの既存の手法よりもはるかに優れており、深度や密度の深い3D測位監督(ポイントクラウドやTSDFなど)を必要としない。
関連論文リスト
- C3G: Learning Compact 3D Representations with 2K Gaussians [55.04010158339562]
近年の手法では3次元ガウススプラッティングを再構成に用い, シーン理解のための2D-to-3D機能昇降ステージが提案されている。
提案するC3Gは,空間的にのみコンパクトな3次元ガウスを推定する新しいフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-12-03T17:59:05Z) - GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering [50.675710727721786]
2次元基礎モデルと3次元ガウススプラッティング再構成をブリッジするハイブリッド手法であるGauSSmartを提案する。
提案手法は,凸フィルタリングや意味的特徴監視など,確立した2次元コンピュータビジョン技術を統合している。
GauSSmartは既存のGaussian Splattingよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-16T03:38:26Z) - Hi^2-GSLoc: Dual-Hierarchical Gaussian-Specific Visual Relocalization for Remote Sensing [6.997091164331322]
リモートセンシングやUAVアプリケーションには、視覚的再ローカライゼーションが不可欠である。
画像に基づく検索とポーズ回帰アプローチは精度に欠ける。
スパース・トゥ・デンス(sparse-to-dense)と粗粒度(arse-to-fine)のパラダイムに従う二重階層的再ローカライゼーションフレームワークである$mathrmHi2$-GSLocを紹介した。
論文 参考訳(メタデータ) (2025-07-21T14:47:56Z) - ODG: Occupancy Prediction Using Dual Gaussians [38.9869091446875]
活動予測は周囲環境のカメラ画像から微細な3次元形状と意味を推定する。
既存の方法は、シーン表現として高密度グリッドを採用するか、単一のスパースクエリを使用してシーン全体を学習する。
複雑なシーンダイナミクスを効果的に捉えるために,階層的な二重スパースガウス表現であるODGを提案する。
論文 参考訳(メタデータ) (2025-06-11T06:03:03Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。