Fugu-MT 論文翻訳(概要): N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields

論文の概要: N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields

arxiv url: http://arxiv.org/abs/2403.10997v1
Date: Sat, 16 Mar 2024 18:50:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 20:36:44.418005
Title: N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields
Title（参考訳）: N2F2:Nested Neural Feature Fieldsを用いた階層的シーン理解
Authors: Yash Bhalgat, Iro Laina, João F. Henriques, Andrew Zisserman, Andrea Vedaldi,
Abstract要約: Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
参考スコア（独自算出の注目度）: 112.02885337510716
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding complex scenes at multiple levels of abstraction remains a formidable challenge in computer vision. To address this, we introduce Nested Neural Feature Fields (N2F2), a novel approach that employs hierarchical supervision to learn a single feature field, wherein different dimensions within the same high-dimensional feature encode scene properties at varying granularities. Our method allows for a flexible definition of hierarchies, tailored to either the physical dimensions or semantics or both, thereby enabling a comprehensive and nuanced understanding of scenes. We leverage a 2D class-agnostic segmentation model to provide semantically meaningful pixel groupings at arbitrary scales in the image space, and query the CLIP vision-encoder to obtain language-aligned embeddings for each of these segments. Our proposed hierarchical supervision method then assigns different nested dimensions of the feature field to distill the CLIP embeddings using deferred volumetric rendering at varying physical scales, creating a coarse-to-fine representation. Extensive experiments show that our approach outperforms the state-of-the-art feature field distillation methods on tasks such as open-vocabulary 3D segmentation and localization, demonstrating the effectiveness of the learned nested feature field.
Abstract（参考訳）: 複数のレベルの抽象化で複雑なシーンを理解することは、コンピュータビジョンにおいて非常に難しい課題である。この問題に対処するため,Nested Neural Feature Fields (N2F2) を導入し, 階層的監視を用いて単一特徴場を学習する手法を提案する。本手法は, 物理的次元や意味論, あるいはその両方に適した階層の柔軟な定義を可能にし, シーンの包括的かつ曖昧な理解を可能にする。画像空間の任意のスケールで意味論的に意味のある画素群を提供するために2次元クラス非依存セグメンテーションモデルを利用し、CLIPビジョンエンコーダにこれらのセグメンテーション毎に言語対応の埋め込みを求める。提案手法は,様々な物理スケールで遅延ボリュームレンダリングを用いてCLIP埋め込みを蒸留し,粗い粒度表現を生成する。開語彙3次元分節化や局所化といったタスクにおいて,本手法は最先端の特徴体蒸留法よりも優れており,学習したネストした特徴体の有効性が示された。

関連論文リスト

CVP: Central-Peripheral Vision-Inspired Multimodal Model for Spatial Reasoning [48.36177110428022]
空間的推論のための中央周辺視覚誘発フレームワーク(CVP)を提案する。 CVPは、中心視と周辺視という2種類の人間の視野からインスピレーションを得ている。実験の結果,CVPは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを達成することがわかった。
論文参考訳（メタデータ） (2025-12-09T00:21:13Z)
PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文参考訳（メタデータ） (2025-06-30T08:13:07Z)
Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文参考訳（メタデータ） (2024-07-30T15:33:58Z)
Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。 DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文参考訳（メタデータ） (2024-07-13T05:39:17Z)
View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文参考訳（メタデータ） (2024-05-30T04:14:58Z)
Exploiting Object-based and Segmentation-based Semantic Features for Deep Learning-based Indoor Scene Classification [0.5572976467442564]
本稿では,オブジェクト検出から得られたセマンティック情報とセマンティックセグメンテーション技術の両方を用いる。セグメンテーションマスクを用いて,Hu-Moments Features (SHMFs)によって指定されたHu-Momentsベースのセグメンテーションカテゴリの形状特徴を提供する手法を提案する。 GOS$2$F$2$Appによって指定された3つのメインブランチネットワークも提案されている。
論文参考訳（メタデータ） (2024-04-11T13:37:51Z)
O2V-Mapping: Online Open-Vocabulary Mapping with Neural Implicit Representation [9.431926560072412]
ボクセルをベースとした言語と幾何学的特徴を利用してオープン語彙場を作成するO2Vマッピングを提案する。オープン語彙オブジェクトのローカライゼーションとセマンティックセグメンテーションの実験は、O2Vマッピングが言語シーンのオンライン構築を実現することを示す。
論文参考訳（メタデータ） (2024-04-10T08:54:43Z)
GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。 GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-04-01T05:19:50Z)
Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文参考訳（メタデータ） (2024-02-04T16:06:05Z)
Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文参考訳（メタデータ） (2023-09-11T13:41:27Z)
Cylindrical Convolutional Networks for Joint Object Detection and Viewpoint Estimation [76.21696417873311]
3次元空間で定義された畳み込みカーネルの円筒形表現を利用する学習可能なモジュールである円筒型畳み込みネットワーク(CCN)を導入する。 CCNはビュー固有の畳み込みカーネルを通してビュー固有の特徴を抽出し、各視点におけるオブジェクトカテゴリスコアを予測する。本実験は,円柱状畳み込みネットワークが関節物体の検出と視点推定に与える影響を実証する。
論文参考訳（メタデータ） (2020-03-25T10:24:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。