Fugu-MT 論文翻訳(概要): GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane

論文の概要: GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane

arxiv url: http://arxiv.org/abs/2405.17596v2
Date: Sat, 27 Jul 2024 01:50:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 22:58:37.471666
Title: GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane
Title（参考訳）: GOI:最適化可能なオープンボキャブラリ・セマンティック・スペース・ハイパープレーンで興味深い3Dガウシアンを見つける
Authors: Yansong Qu, Shaohui Dai, Xinyang Li, Jianghang Lin, Liujuan Cao, Shengchuan Zhang, Rongrong Ji,
Abstract要約: 3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。 GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
参考スコア（独自算出の注目度）: 53.388937705785025
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: 3D open-vocabulary scene understanding, crucial for advancing augmented reality and robotic applications, involves interpreting and locating specific regions within a 3D space as directed by natural language instructions. To this end, we introduce GOI, a framework that integrates semantic features from 2D vision-language foundation models into 3D Gaussian Splatting (3DGS) and identifies 3D Gaussians of Interest using an Optimizable Semantic-space Hyperplane. Our approach includes an efficient compression method that utilizes scene priors to condense noisy high-dimensional semantic features into compact low-dimensional vectors, which are subsequently embedded in 3DGS. During the open-vocabulary querying process, we adopt a distinct approach compared to existing methods, which depend on a manually set fixed empirical threshold to select regions based on their semantic feature distance to the query text embedding. This traditional approach often lacks universal accuracy, leading to challenges in precisely identifying specific target areas. Instead, our method treats the feature selection process as a hyperplane division within the feature space, retaining only those features that are highly relevant to the query. We leverage off-the-shelf 2D Referring Expression Segmentation (RES) models to fine-tune the semantic-space hyperplane, enabling a more precise distinction between target regions and others. This fine-tuning substantially improves the accuracy of open-vocabulary queries, ensuring the precise localization of pertinent 3D Gaussians. Extensive experiments demonstrate GOI's superiority over previous state-of-the-art methods. Our project page is available at https://quyans.github.io/GOI-Hyperplane/ .
Abstract（参考訳）: 3Dのオープンボキャブラリのシーン理解は、拡張現実やロボットの応用に欠かせないもので、自然言語の指示に従って3D空間内の特定の領域を解釈し、配置する。 GOIは2次元視覚言語基礎モデルのセマンティック特徴を3次元ガウススプラッティング(3DGS)に統合し,最適化可能なセマンティック空間ハイパープレーンを用いて関心の3次元ガウスを同定するフレームワークである。提案手法は,3DGSに埋め込まれたコンパクトな低次元ベクトルに雑音の多い高次元のセマンティック特徴を凝縮するために,シーン先行を利用した効率的な圧縮手法を含む。オープン語彙クエリプロセスでは,クエリテキストの埋め込みに対する意味的特徴距離に基づいて,各領域に手動で設定した固定経験しきい値に依存する既存の手法と異なるアプローチを採用する。この伝統的なアプローチは、しばしば普遍的な精度に欠けており、特定の対象領域を正確に特定する上での課題に繋がる。その代わりに,提案手法は特徴空間内の超平面分割として特徴選択処理を扱い,クエリに高い関連性を持つ特徴のみを保持する。既製の2次元参照式セグメンテーション(RES)モデルを用いて,セマンティック空間の超平面を微調整し,ターゲット領域と他の領域とのより正確な区別を可能にする。この微調整により、オープン語彙クエリの精度が大幅に向上し、関連する3Dガウスの正確なローカライゼーションが保証される。広汎な実験は、GOIが従来の最先端手法よりも優れていることを示す。私たちのプロジェクトページはhttps://quyans.github.io/GOI-Hyperplane/で公開されています。

関連論文リスト

SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文参考訳（メタデータ） (2025-07-31T17:56:55Z)
SceneSplat++: A Large Dataset and Comprehensive Benchmark for Language Gaussian Splatting [104.83629308412958]
3D Gaussian Splatting (3DGS) は、シーン幾何学、外観、意味論の高性能かつ効率的な符号化として機能する。 3次元空間で直接3つの手法群を体系的に評価する,最初の大規模ベンチマークを提案する。結果は、特にシーン固有の制限を緩和する上で、一般化可能なパラダイムの明確な利点を示している。
論文参考訳（メタデータ） (2025-06-10T11:52:45Z)
econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2025-04-08T13:12:31Z)
Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文参考訳（メタデータ） (2025-03-20T20:58:48Z)
GaussianGraph: 3D Gaussian-based Scene Graph Generation for Open-world Scene Understanding [20.578106363482018]
本稿では,セマンティッククラスタリングとシーングラフ生成を統合し,3DGSに基づくシーン理解を強化する新しいフレームワークを提案する。本稿では,シーンスケールや特徴分布に動的に対応し,特徴圧縮を回避する"Control-Follow"クラスタリング戦略を提案する。 2次元基礎モデルから抽出したオブジェクト属性と空間関係を統合することでシーン表現を充実させる。
論文参考訳（メタデータ） (2025-03-06T02:36:59Z)
Dr. Splat: Directly Referring 3D Gaussian Splatting via Direct Language Embedding Registration [41.046653227409564]
Dr. Splatは3Dガウススプラッティングを利用したオープンな3Dシーン理解のための新しいアプローチである。本手法は,言語対応のCLIP埋め込みと3Dガウスアンを関連付けることで,総合的な3Dシーン理解を実現する。実験により、我々のアプローチは既存の3次元知覚ベンチマークよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2025-02-23T17:01:14Z)
SLGaussian: Fast Language Gaussian Splatting in Sparse Views [15.0280871846496]
スパース視点から3次元意味体を構築するフィードフォワード手法であるSLGaussianを提案する。 SLGaussianは、3D空間に言語情報を効率よく埋め込むことができ、スパースビュー条件下で正確な3Dシーン理解のための堅牢なソリューションを提供する。
論文参考訳（メタデータ） (2024-12-11T12:18:30Z)
SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality [50.179377002092416]
より少ないパラメータで高品質なレンダリングが可能な効率的なビジュアルローカライズ手法を提案する。提案手法は,最先端の暗黙的視覚的ローカライゼーションアプローチに対して,より優れた,あるいは同等なレンダリングとローカライゼーション性能を実現する。
論文参考訳（メタデータ） (2024-09-21T08:46:16Z)
GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。 GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-27T17:59:51Z)
CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。 SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文参考訳（メタデータ） (2024-04-22T15:01:32Z)
Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文参考訳（メタデータ） (2024-03-22T21:28:19Z)
Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [18.415854443539786]
本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。 SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
論文参考訳（メタデータ） (2023-12-10T04:17:27Z)
Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文参考訳（メタデータ） (2023-11-30T11:50:07Z)
ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文参考訳（メタデータ） (2023-11-29T20:30:18Z)
PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文参考訳（メタデータ） (2023-08-31T17:57:17Z)
Scene-Generalizable Interactive Segmentation of Radiance Fields [64.37093918762]
我々はSGISRF(Scene-Generalizable Interactive in Radiance Fields)の最初の試みを行う。そこで本研究では,複数視点の2D画像に対して,対話的なユーザクリック数回しか表示されない,新しい(見えない)シーンの3Dオブジェクトセグメンテーションを実現するSGISRF手法を提案する。多様なシーンをカバーする2つの実世界の挑戦的ベンチマーク実験は,1) 提案手法の有効性とシーン一般化性を示し,2) シーン固有の最適化を必要とする古典的手法と比較して良好な性能を示した。
論文参考訳（メタデータ） (2023-08-09T17:55:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。