Fugu-MT 論文翻訳(概要): PanoGS: Gaussian-based Panoptic Segmentation for 3D Open Vocabulary Scene Understanding

論文の概要: PanoGS: Gaussian-based Panoptic Segmentation for 3D Open Vocabulary Scene Understanding

arxiv url: http://arxiv.org/abs/2503.18107v1
Date: Sun, 23 Mar 2025 15:27:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-25 16:32:16.989378
Title: PanoGS: Gaussian-based Panoptic Segmentation for 3D Open Vocabulary Scene Understanding
Title（参考訳）: PanoGS:3次元オープン語彙シーン理解のためのガウス系パノプティカルセグメンテーション
Authors: Hongjia Zhai, Hai Li, Zhenzhe Li, Xiaokun Pan, Yijia He, Guofeng Zhang,
Abstract要約: 3D Gaussian Splatting (3DGS) はオープンな語彙シーン理解タスクの促進効果を示した。従来の方法では3Dインスタンスレベルの情報は識別できないが、通常はシーンの特徴とテキストクエリ間のヒートマップを予測する。新規かつ効果的な3次元パノプティカルオープンなシーン理解手法であるPanoGSを提案する。
参考スコア（独自算出の注目度）: 8.72555461868951
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, 3D Gaussian Splatting (3DGS) has shown encouraging performance for open vocabulary scene understanding tasks. However, previous methods cannot distinguish 3D instance-level information, which usually predicts a heatmap between the scene feature and text query. In this paper, we propose PanoGS, a novel and effective 3D panoptic open vocabulary scene understanding approach. Technically, to learn accurate 3D language features that can scale to large indoor scenarios, we adopt the pyramid tri-plane to model the latent continuous parametric feature space and use a 3D feature decoder to regress the multi-view fused 2D feature cloud. Besides, we propose language-guided graph cuts that synergistically leverage reconstructed geometry and learned language cues to group 3D Gaussian primitives into a set of super-primitives. To obtain 3D consistent instance, we perform graph clustering based segmentation with SAM-guided edge affinity computation between different super-primitives. Extensive experiments on widely used datasets show better or more competitive performance on 3D panoptic open vocabulary scene understanding. Project page: \href{https://zju3dv.github.io/panogs}{https://zju3dv.github.io/panogs}.
Abstract（参考訳）: 近年,3D Gaussian Splatting (3DGS) は,オープンな語彙シーン理解タスクの促進効果を示している。しかし,従来の方法では,シーン特徴とテキストクエリ間のヒートマップを予測する3Dインスタンスレベルの情報を区別することはできない。本稿では,パノグラフ(パノグラフ)を提案する。パノグラフ(パノグラフ)は,新しい3次元パノプティカルオープンなシーン理解手法である。技術的には、屋内の大きなシナリオにスケール可能な正確な3D言語機能を学ぶために、潜伏する連続パラメトリックな特徴空間をモデル化するためにピラミッド三面体を採用し、マルチビューフューズされた2D特徴クラウドを回帰するために3D特徴デコーダを使用します。さらに,再構成幾何と学習言語キューを相乗的に活用し,3次元ガウス原始言語を超原始言語に分類する言語誘導グラフカットを提案する。 3次元一貫したインスタンスを得るために, SAM誘導エッジ親和性計算によるグラフクラスタリングに基づくセグメンテーションを行う。広く使用されているデータセットに対する大規模な実験は、3Dパノプティカルオープンな語彙シーン理解において、より優れた、あるいはより競争的なパフォーマンスを示す。プロジェクトページ: \href{https://zju3dv.github.io/panogs}{https://zju3dv.github.io/panogs}

関連論文リスト

Training-Free Hierarchical Scene Understanding for Gaussian Splatting with Superpoint Graphs [16.153129392697885]
ガウス原始体から直接スーパーポイントグラフを構築する訓練自由フレームワークを導入する。スーパーポイントグラフはシーンを空間的にコンパクトでセマンティックなコヒーレントな領域に分割し、ビュー一貫性の3Dエンティティを形成する。提案手法は,30時間以上のセグメンテーションを高速化し,最先端のオープン語彙セグメンテーション性能を実現する。
論文参考訳（メタデータ） (2025-04-17T17:56:07Z)
Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration [41.046653227409564]
Dr. Splatは3Dガウススプラッティングを利用したオープンな3Dシーン理解のための新しいアプローチである。本手法は,言語対応のCLIP埋め込みと3Dガウスアンを関連付けることで,総合的な3Dシーン理解を実現する。実験により、我々のアプローチは既存の3次元知覚ベンチマークよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2025-02-23T17:01:14Z)
PanoSLAM: Panoptic 3D Scene Reconstruction via Gaussian SLAM [105.01907579424362]
PanoSLAMは、幾何学的再構成、3Dセマンティックセマンティックセマンティクス、3Dインスタンスセマンティクスを統合フレームワークに統合する最初のSLAMシステムである。初めて、RGB-Dビデオから直接、オープンワールド環境のパノプティカル3D再構成を実現する。
論文参考訳（メタデータ） (2024-12-31T08:58:10Z)
OVGaussian: Generalizable 3D Gaussian Segmentation with Open Vocabularies [112.80292725951921]
textbfOVGaussianは3D textbfGaussian表現に基づいた、一般化可能なtextbfOpen-textbfVocabulary 3Dセマンティックセマンティックセグメンテーションフレームワークである。まず,3DGSをベースとした大規模3Dシーンデータセット(textbfSegGaussian)を構築し,ガウス点とマルチビュー画像の両方に対して詳細なセマンティックおよびインスタンスアノテーションを提供する。シーン間のセマンティック・一般化を促進するために,ジェネリック・セマンティック・ラスタライゼーション(GSR)を導入する。
論文参考訳（メタデータ） (2024-12-31T07:55:35Z)
OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文参考訳（メタデータ） (2024-06-04T07:42:33Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。 GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文参考訳（メタデータ） (2024-02-09T05:46:47Z)
POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文参考訳（メタデータ） (2024-01-17T18:51:53Z)
OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文参考訳（メタデータ） (2022-11-28T18:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。