Fugu-MT 論文翻訳(概要): GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields

論文の概要: GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields

arxiv url: http://arxiv.org/abs/2404.00931v1
Date: Mon, 1 Apr 2024 05:19:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 23:16:25.657840
Title: GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields
Title（参考訳）: GOV-NeSF: 一般化可能なオープン語彙ニューラルセマンティックフィールド
Authors: Yunsong Wang, Hanlin Chen, Gim Hee Lee,
Abstract要約: Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。 GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
参考スコア（独自算出の注目度）: 50.68719394443926
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in vision-language foundation models have significantly enhanced open-vocabulary 3D scene understanding. However, the generalizability of existing methods is constrained due to their framework designs and their reliance on 3D data. We address this limitation by introducing Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF), a novel approach offering a generalizable implicit representation of 3D scenes with open-vocabulary semantics. We aggregate the geometry-aware features using a cost volume, and propose a Multi-view Joint Fusion module to aggregate multi-view features through a cross-view attention mechanism, which effectively predicts view-specific blending weights for both colors and open-vocabulary features. Remarkably, our GOV-NeSF exhibits state-of-the-art performance in both 2D and 3D open-vocabulary semantic segmentation, eliminating the need for ground truth semantic labels or depth priors, and effectively generalize across scenes and datasets without fine-tuning.
Abstract（参考訳）: 視覚言語基礎モデルの最近の進歩は、オープン語彙の3Dシーン理解を大幅に強化した。しかし,既存の手法の一般化性は,フレームワークの設計と3Dデータへの依存により制約されている。オープン語彙意味論を用いた3次元シーンの一般化可能な暗黙的表現を提供する新しいアプローチであるGOV-NeSF(Generalizable Open-Vocabulary Neural Semantic Fields)を導入することで、この制限に対処する。コストボリュームを用いて幾何学的特徴を集約し,多視点統合モジュールを提案する。多視点統合モジュールは,色と開語彙の両方の特徴に対して,ビュー固有のブレンディング重みを効果的に予測するクロスビューアテンション機構により,多視点特徴を集約する。注目すべきことに、GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセマンティックセマンティクスにおいて最先端のパフォーマンスを示し、基底真理セマンティクスラベルや深度事前の必要性を排除し、微調整なしでシーンやデータセットを効果的に一般化する。

関連論文リスト

PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文参考訳（メタデータ） (2025-06-30T08:13:07Z)
OGGSplat: Open Gaussian Growing for Generalizable Reconstruction with Expanded Field-of-View [74.58230239274123]
一般化可能な3次元再構成において視野を拡大するオープンガウス成長法であるOGGSplatを提案する。我々の重要な洞察は、オープンガウスのセマンティックな属性が、画像外挿の強い先行性を提供するということである。 OGGSplatはまた、スマートフォンカメラから直接撮影される2つのビューイメージを備えた場合、有望なセマンティック・アウェア・シーン再構築機能を示す。
論文参考訳（メタデータ） (2025-06-05T16:17:18Z)
Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文参考訳（メタデータ） (2025-03-20T20:58:48Z)
XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文参考訳（メタデータ） (2024-11-20T12:02:12Z)
Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-07-18T16:20:56Z)
Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。 DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文参考訳（メタデータ） (2024-07-13T05:39:17Z)
O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation [9.431926560072412]
ボクセルをベースとした言語と幾何学的特徴を利用してオープン語彙場を作成するO2Vマッピングを提案する。オープン語彙オブジェクトのローカライゼーションとセマンティックセグメンテーションの実験は、O2Vマッピングが言語シーンのオンライン構築を実現することを示す。
論文参考訳（メタデータ） (2024-04-10T08:54:43Z)
N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文参考訳（メタデータ） (2024-03-16T18:50:44Z)
UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation [46.998093729036334]
我々は,UniM-OV3Dという,マルチモーダルなオープン・ボキャブラリ・シーン理解ネットワークを提案する。ポイントクラウドのグローバル機能とローカル機能をよりよく統合するために、階層的なポイントクラウド機能抽出モジュールを設計する。キャプションからの粗い点列表現の学習を容易にするために,階層型3Dキャプションペアの利用を提案する。
論文参考訳（メタデータ） (2024-01-21T04:13:58Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
Open-NeRF: Towards Open Vocabulary NeRF Decomposition [14.759265492381509]
開語彙埋め込み型ニューラルラジアンスフィールド(Open-NeRF)を提案する。 Open-NeRFはSegment Anything Model (SAM)のような大規模オフザシェルフセグメンテーションモデルを活用する実験の結果,提案したOpen-NeRFは,開語彙シナリオにおけるLERF citelerfやFFD citeffdといった最先端手法よりも優れていた。
論文参考訳（メタデータ） (2023-10-25T05:43:14Z)
GNeSF: Generalizable Neural Semantic Fields [48.49860868061573]
暗黙の表現に基づく一般化可能な3Dセグメンテーションフレームワークを提案する。本稿では,各3次元点の異なる視点から2次元意味情報を集約するソフト投票機構を提案する。当社のアプローチは、2Dアノテーションだけで、既存の強力な監視ベースのアプローチよりも優れています。
論文参考訳（メタデータ） (2023-10-24T10:40:51Z)
Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文参考訳（メタデータ） (2023-05-23T14:16:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。