論文の概要: OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion
- arxiv url: http://arxiv.org/abs/2510.18253v1
- Date: Tue, 21 Oct 2025 03:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.835246
- Title: OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion
- Title(参考訳): OpenInsGaussian: コンテキスト対応のクロスビューフュージョンによるオープンボキャブラリインスタンスガウスセグメンテーション
- Authors: Tianyu Huang, Runnan Chen, Dongting Hu, Fengming Huang, Mingming Gong, Tongliang Liu,
- Abstract要約: textbfOpenInsGaussian, textbfOpen-vocabulary textbfInstance textbfGaussian segmentation framework with Context-aware Cross-view Fusion。
OpenInsGaussianは、オープン語彙の3Dガウスのセグメンテーションにおける最先端の結果を達成し、既存のベースラインを大きなマージンで上回る。
- 参考スコア(独自算出の注目度): 89.98812408058336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding 3D scenes is pivotal for autonomous driving, robotics, and augmented reality. Recent semantic Gaussian Splatting approaches leverage large-scale 2D vision models to project 2D semantic features onto 3D scenes. However, they suffer from two major limitations: (1) insufficient contextual cues for individual masks during preprocessing and (2) inconsistencies and missing details when fusing multi-view features from these 2D models. In this paper, we introduce \textbf{OpenInsGaussian}, an \textbf{Open}-vocabulary \textbf{Ins}tance \textbf{Gaussian} segmentation framework with Context-aware Cross-view Fusion. Our method consists of two modules: Context-Aware Feature Extraction, which augments each mask with rich semantic context, and Attention-Driven Feature Aggregation, which selectively fuses multi-view features to mitigate alignment errors and incompleteness. Through extensive experiments on benchmark datasets, OpenInsGaussian achieves state-of-the-art results in open-vocabulary 3D Gaussian segmentation, outperforming existing baselines by a large margin. These findings underscore the robustness and generality of our proposed approach, marking a significant step forward in 3D scene understanding and its practical deployment across diverse real-world scenarios.
- Abstract(参考訳): 3Dシーンを理解することは、自動運転、ロボット工学、拡張現実にとって重要な要素だ。
最近のセマンティック・ガウス・スプレイティング・アプローチでは、大規模2次元視覚モデルを用いて3次元シーンに2次元のセマンティックな特徴を投影している。
しかし,(1)前処理時のマスクの文脈的手がかりの不足,(2)これらの2次元モデルから多視点特徴を融合させる際の不整合と詳細の欠如,の2つの大きな制限がある。
本稿では、コンテキスト対応のクロスビューフュージョンを用いたtextbf{OpenInsGaussian}-vocabulary \textbf{Ins}tance \textbf{Gaussian}セグメンテーションフレームワークについて紹介する。
提案手法は2つのモジュールから構成される: コンテキスト認識特徴抽出(Context-Aware Feature extract)は、各マスクをリッチなセマンティックコンテキストで拡張し、アテンション駆動特徴集約(Attention-Driven Feature Aggregation)は、アライメントエラーと不完全性を緩和するために、多視点特徴を選択的に融合する。
ベンチマークデータセットに関する広範な実験を通じて、OpenInsGaussianは、オープン語彙の3Dガウスセグメンテーションにおける最先端の結果を達成し、既存のベースラインを大きなマージンで上回る。
これらの結果は,提案手法の堅牢性と汎用性を裏付けるものであり,実世界のさまざまなシナリオにまたがる3Dシーンの理解と実践的展開において,大きな一歩を踏み出した。
関連論文リスト
- Complementary Information Guided Occupancy Prediction via Multi-Level Representation Fusion [73.11061598576798]
カメラによる占有予測は、自動運転における3D知覚の主流のアプローチである。
textbfCIGOccはマルチレベル表現融合に基づく2段階の占有予測フレームワークである。
textbfCIGOccは、入力画像からセグメンテーション、グラフィックス、深さの特徴を抽出し、変形可能なマルチレベル融合機構を導入する。
論文 参考訳(メタデータ) (2025-10-15T06:37:33Z) - Beyond Averages: Open-Vocabulary 3D Scene Understanding with Gaussian Splatting and Bag of Embeddings [17.855913571198013]
本稿では,意味論における微分可能レンダリングを完全に回避するパラダイムシフト方式を提案する。
私たちの重要な洞察は、事前分解されたオブジェクトレベルのガウスを利用して、マルチビューCLIP機能アグリゲーションを通じて各オブジェクトを表現することです。
これにより、(1)テキストクエリをオブジェクトレベル(ガウスレベルではない)の埋め込みと比較することにより、正確なオープン語彙オブジェクトの検索が可能となり、(2)シームレスなタスク適応:2次元セグメンテーションや3次元抽出のためのガウスアンにオブジェクトIDを伝搬する。
論文 参考訳(メタデータ) (2025-09-16T10:39:37Z) - PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。
我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。
第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文 参考訳(メタデータ) (2025-06-30T08:13:07Z) - OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View [74.58230239274123]
一般化可能な3次元再構成において視野を拡大するオープンガウス成長法であるOGGSplatを提案する。
我々の重要な洞察は、オープンガウスのセマンティックな属性が、画像外挿の強い先行性を提供するということである。
OGGSplatはまた、スマートフォンカメラから直接撮影される2つのビューイメージを備えた場合、有望なセマンティック・アウェア・シーン再構築機能を示す。
論文 参考訳(メタデータ) (2025-06-05T16:17:18Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。
まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。
シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文 参考訳(メタデータ) (2024-12-31T07:55:35Z) - InstanceGaussian: Appearance-Semantic Joint Gaussian Representation for 3D Instance-Level Perception [17.530797215534456]
3Dシーンの理解は、自動運転、ロボティクス、拡張現実の応用において重要な研究領域となっている。
本稿では,インスタンスを適応的に集約しながら外観や意味的特徴を共同学習する InstanceGaussian を提案する。
提案手法は,カテゴリーに依存しないオープンボキャブラリ3次元点分割における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-28T16:08:36Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。