論文の概要: VoteSplat: Hough Voting Gaussian Splatting for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2506.22799v1
- Date: Sat, 28 Jun 2025 08:02:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.572403
- Title: VoteSplat: Hough Voting Gaussian Splatting for 3D Scene Understanding
- Title(参考訳): VoteSplat:3Dシーン理解のためのガウシアンスプレイティング
- Authors: Minchao Jiang, Shunyu Jia, Jiaming Gu, Xiaoyuan Lu, Guangming Zhu, Anqi Dong, Liang Zhang,
- Abstract要約: VoteSplatは、Houghの投票と3DGSを統合する新しい3Dシーン理解フレームワークである。
オープン語彙オブジェクトのローカライゼーションのために、VoteSplatは投票ポイントを介して2Dイメージセマンティクスを3Dポイントクラウドにマップする。
- 参考スコア(独自算出の注目度): 4.306498599984964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D Gaussian Splatting (3DGS) has become horsepower in high-quality, real-time rendering for novel view synthesis of 3D scenes. However, existing methods focus primarily on geometric and appearance modeling, lacking deeper scene understanding while also incurring high training costs that complicate the originally streamlined differentiable rendering pipeline. To this end, we propose VoteSplat, a novel 3D scene understanding framework that integrates Hough voting with 3DGS. Specifically, Segment Anything Model (SAM) is utilized for instance segmentation, extracting objects, and generating 2D vote maps. We then embed spatial offset vectors into Gaussian primitives. These offsets construct 3D spatial votes by associating them with 2D image votes, while depth distortion constraints refine localization along the depth axis. For open-vocabulary object localization, VoteSplat maps 2D image semantics to 3D point clouds via voting points, reducing training costs associated with high-dimensional CLIP features while preserving semantic unambiguity. Extensive experiments demonstrate effectiveness of VoteSplat in open-vocabulary 3D instance localization, 3D point cloud understanding, click-based 3D object localization, hierarchical segmentation, and ablation studies. Our code is available at https://sy-ja.github.io/votesplat/
- Abstract(参考訳): 3Dガウススティング(3DGS)は、3Dシーンの新たなビュー合成のための高品質でリアルタイムなレンダリングの馬力となっている。
しかし、既存の手法は主に幾何学的および外見的モデリングに重点を置いており、より深いシーン理解を欠いている一方で、元々の合理化された微分可能なレンダリングパイプラインを複雑にする高いトレーニングコストもたらしている。
そこで我々は,ハフ投票と3DGSを統合する新しい3Dシーン理解フレームワークであるVoteSplatを提案する。
具体的には、Segment Anything Model (SAM) を例示し、オブジェクトを抽出し、2D投票マップを生成する。
次に空間オフセットベクトルをガウス原始体に埋め込む。
これらのオフセットは2次元画像票に関連付けて3次元空間票を構成する一方、深度歪み制約は深度軸に沿った局所化を洗練させる。
オープンな語彙オブジェクトのローカライゼーションのために、VoteSplatは投票ポイントを介して2Dイメージセマンティクスを3Dポイントクラウドにマップし、セマンティクスの曖昧さを保ちながら、高次元CLIP機能に関連するトレーニングコストを削減する。
オープンな3Dインスタンスローカライゼーション,3Dポイントクラウド理解,クリックベースの3Dオブジェクトローカライゼーション,階層的セグメンテーション,アブレーション研究において,VoteSplatの有効性を実証した。
私たちのコードはhttps://sy-ja.github.io/votesplat/で利用可能です。
関連論文リスト
- Tackling View-Dependent Semantics in 3D Language Gaussian Splatting [80.88015191411714]
LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。
セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。
同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
論文 参考訳(メタデータ) (2025-05-30T16:06:32Z) - OpenGS-SLAM: Open-Set Dense Semantic SLAM with 3D Gaussian Splatting for Object-Level Scene Understanding [20.578106363482018]
OpenGS-SLAMは3次元ガウス表現を利用して、オープンセット環境で密接なセマンティックSLAMを実行する革新的なフレームワークである。
本システムは,2次元モデルから派生した明示的なセマンティックラベルを3次元ガウスフレームワークに統合し,ロバストな3次元オブジェクトレベルの理解を容易にする。
本手法は従来の手法に比べて10倍高速なセマンティックレンダリングと2倍のストレージコストを実現する。
論文 参考訳(メタデータ) (2025-03-03T15:23:21Z) - Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration [41.046653227409564]
Dr. Splatは3Dガウススプラッティングを利用したオープンな3Dシーン理解のための新しいアプローチである。
本手法は,言語対応のCLIP埋め込みと3Dガウスアンを関連付けることで,総合的な3Dシーン理解を実現する。
実験により、我々のアプローチは既存の3次元知覚ベンチマークよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-02-23T17:01:14Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting [0.0]
本稿では,新しい3次元表現へのモジュラリティと適応性を確保するために,分離した3次元分割パイプラインを提案する。
我々は、合成および実世界の屋内データセットを評価し、同等のNeRFパイプラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-14T21:26:44Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z) - LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes [52.31402192831474]
しかし、既存の3Dシーン生成モデルは、ターゲットシーンを特定のドメインに制限する。
ドメインフリーシーン生成パイプラインであるLucidDreamerを提案する。
LucidDreamerは、ターゲットシーンのドメインに制約がなく、高詳細なガウススプラットを生成する。
論文 参考訳(メタデータ) (2023-11-22T13:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。