論文の概要: GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields
- arxiv url: http://arxiv.org/abs/2404.00931v1
- Date: Mon, 1 Apr 2024 05:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 23:16:25.657840
- Title: GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields
- Title(参考訳): GOV-NeSF: 一般化可能なオープン語彙ニューラルセマンティックフィールド
- Authors: Yunsong Wang, Hanlin Chen, Gim Hee Lee,
- Abstract要約: Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 50.68719394443926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in vision-language foundation models have significantly enhanced open-vocabulary 3D scene understanding. However, the generalizability of existing methods is constrained due to their framework designs and their reliance on 3D data. We address this limitation by introducing Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF), a novel approach offering a generalizable implicit representation of 3D scenes with open-vocabulary semantics. We aggregate the geometry-aware features using a cost volume, and propose a Multi-view Joint Fusion module to aggregate multi-view features through a cross-view attention mechanism, which effectively predicts view-specific blending weights for both colors and open-vocabulary features. Remarkably, our GOV-NeSF exhibits state-of-the-art performance in both 2D and 3D open-vocabulary semantic segmentation, eliminating the need for ground truth semantic labels or depth priors, and effectively generalize across scenes and datasets without fine-tuning.
- Abstract(参考訳): 視覚言語基礎モデルの最近の進歩は、オープン語彙の3Dシーン理解を大幅に強化した。
しかし,既存の手法の一般化性は,フレームワークの設計と3Dデータへの依存により制約されている。
オープン語彙意味論を用いた3次元シーンの一般化可能な暗黙的表現を提供する新しいアプローチであるGOV-NeSF(Generalizable Open-Vocabulary Neural Semantic Fields)を導入することで、この制限に対処する。
コストボリュームを用いて幾何学的特徴を集約し,多視点統合モジュールを提案する。多視点統合モジュールは,色と開語彙の両方の特徴に対して,ビュー固有のブレンディング重みを効果的に予測するクロスビューアテンション機構により,多視点特徴を集約する。
注目すべきことに、GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセマンティックセマンティクスにおいて最先端のパフォーマンスを示し、基底真理セマンティクスラベルや深度事前の必要性を排除し、微調整なしでシーンやデータセットを効果的に一般化する。
関連論文リスト
- Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。
DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2024-07-13T05:39:17Z) - O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation [9.431926560072412]
ボクセルをベースとした言語と幾何学的特徴を利用してオープン語彙場を作成するO2Vマッピングを提案する。
オープン語彙オブジェクトのローカライゼーションとセマンティックセグメンテーションの実験は、O2Vマッピングが言語シーンのオンライン構築を実現することを示す。
論文 参考訳(メタデータ) (2024-04-10T08:54:43Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation [46.998093729036334]
我々は,UniM-OV3Dという,マルチモーダルなオープン・ボキャブラリ・シーン理解ネットワークを提案する。
ポイントクラウドのグローバル機能とローカル機能をよりよく統合するために、階層的なポイントクラウド機能抽出モジュールを設計する。
キャプションからの粗い点列表現の学習を容易にするために,階層型3Dキャプションペアの利用を提案する。
論文 参考訳(メタデータ) (2024-01-21T04:13:58Z) - Open-NeRF: Towards Open Vocabulary NeRF Decomposition [14.759265492381509]
開語彙埋め込み型ニューラルラジアンスフィールド(Open-NeRF)を提案する。
Open-NeRFはSegment Anything Model (SAM)のような大規模オフザシェルフセグメンテーションモデルを活用する
実験の結果,提案したOpen-NeRFは,開語彙シナリオにおけるLERF citelerfやFFD citeffdといった最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-25T05:43:14Z) - GNeSF: Generalizable Neural Semantic Fields [48.49860868061573]
暗黙の表現に基づく一般化可能な3Dセグメンテーションフレームワークを提案する。
本稿では,各3次元点の異なる視点から2次元意味情報を集約するソフト投票機構を提案する。
当社のアプローチは、2Dアノテーションだけで、既存の強力な監視ベースのアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-10-24T10:40:51Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。