Fugu-MT 論文翻訳(概要): 3D Open-vocabulary Segmentation with Foundation Models

論文の概要: 3D Open-vocabulary Segmentation with Foundation Models

arxiv url: http://arxiv.org/abs/2305.14093v2
Date: Wed, 24 May 2023 09:18:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-25 10:44:02.333862
Title: 3D Open-vocabulary Segmentation with Foundation Models
Title（参考訳）: 基礎モデルを用いた3次元オープン語彙セグメンテーション
Authors: Kunhao Liu, Fangneng Zhan, Jiahui Zhang, Muyu Xu, Yingchen Yu, Abdulmotaleb El Saddik, Christian Theobalt, Eric Xing, Shijian Lu
Abstract要約: 学習済み基礎モデルCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力を活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。具体的には,CLIPからのオープンボキャブラリ知識とテキスト知識をニューラルラディアンス場(NeRF)に蒸留し,2次元特徴をビュー一貫性の3Dセグメンテーションに効果的に持ち上げる。我々の手法は、セグメンテーションアノテーションで訓練された完全教師付きモデルよりも優れています。
参考スコア（独自算出の注目度）: 88.59157211298258
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Open-vocabulary segmentation of 3D scenes is a fundamental function of human perception and thus a crucial objective in computer vision research. However, this task is heavily impeded by the lack of large-scale and diverse 3D open-vocabulary segmentation datasets for training robust and generalizable models. Distilling knowledge from pre-trained 2D open-vocabulary segmentation models helps but it compromises the open-vocabulary feature significantly as the 2D models are mostly finetuned with close-vocabulary datasets. We tackle the challenges in 3D open-vocabulary segmentation by exploiting the open-vocabulary multimodal knowledge and object reasoning capability of pre-trained foundation models CLIP and DINO, without necessitating any fine-tuning. Specifically, we distill open-vocabulary visual and textual knowledge from CLIP into a neural radiance field (NeRF) which effectively lifts 2D features into view-consistent 3D segmentation. Furthermore, we introduce the Relevancy-Distribution Alignment loss and Feature-Distribution Alignment loss to respectively mitigate the ambiguities of CLIP features and distill precise object boundaries from DINO features, eliminating the need for segmentation annotations during training. Extensive experiments show that our method even outperforms fully supervised models trained with segmentation annotations, suggesting that 3D open-vocabulary segmentation can be effectively learned from 2D images and text-image pairs.
Abstract（参考訳）: 3Dシーンのオープンボキャブラリセグメンテーションは人間の知覚の基本的な機能であり、コンピュータビジョン研究において重要な目的である。しかし、このタスクは、堅牢で一般化可能なモデルをトレーニングするための大規模で多様な3dopen-vocabulary segmentationデータセットの欠如によって大きく妨げられている。事前訓練された2Dオープン語彙セグメンテーションモデルからの知識の希釈は役立つが、2Dモデルは概ね近接語彙データセットで微調整されているため、オープン語彙の特徴を著しく損なう。我々は,事前学習された基礎モデル clip と dino のオープンボキャブラリなマルチモーダル知識とオブジェクト推論能力を活用し,微調整を必要とせずに,3次元オープンボキャブラリセグメンテーションの課題に取り組む。具体的には,CLIPからのオープンボキャブラリ知識とテキスト知識をニューラルラディアンス場(NeRF)に蒸留し,2次元特徴をビュー一貫性の3Dセグメンテーションに効果的に持ち上げる。さらに,CLIP特徴のあいまいさを軽減し,DINO特徴から正確なオブジェクト境界を抽出し,トレーニング中にセグメンテーションアノテーションを不要にするため,Relevancy-Distribution Alignment LosとFeature-Distriion Alignment Losを導入する。大規模な実験により,本手法はセグメンテーションアノテーションで訓練した完全教師付きモデルよりも優れており,2次元画像とテキストイメージペアから3次元オープン語彙セグメンテーションを効果的に学習できることが示唆された。

関連論文リスト

DiSCO-3D : Discovering and segmenting Sub-Concepts from Open-vocabulary queries in NeRF [0.5409700620900997]
DiSCO-3Dは、シーンとユーザクエリの両方に対応する3Dセマンティックセマンティックセマンティクスを提供することを目指している。我々は、教師なしセグメンテーションと弱いオープン語彙誘導を組み合わせた、ニューラルネットワーク表現に基づくDiSCO-3Dを構築した。オープン語彙サブ概念発見においてDiSCO-3Dが有効な性能を発揮することを示す。
論文参考訳（メタデータ） (2025-07-19T12:46:20Z)
PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文参考訳（メタデータ） (2025-06-30T08:13:07Z)
Segment Any 3D-Part in a Scene from a Sentence [50.46950922754459]
本稿では,自然言語記述に基づくシーン内の任意の3次元部分のセグメンテーションを実現することを目的とする。本稿では,高密度部分アノテーションを用いた最初の大規模3Dデータセットである3D-PUデータセットを紹介する。手法面では,パートレベルセグメンテーションの課題に対処する3DインプットのみのフレームワークであるOpenPart3Dを提案する。
論文参考訳（メタデータ） (2025-06-24T05:51:22Z)
Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文参考訳（メタデータ） (2025-03-20T20:58:48Z)
Open-Vocabulary Semantic Part Segmentation of 3D Human [4.380538063753977]
3次元人間を扱える最初のオープン語彙セグメンテーション法を提案する。我々のフレームワークは、テキストのプロンプトに基づいて、人間のカテゴリを所望のきめ細かい部分に分類することができる。本手法はメッシュ,点雲,3次元ガウススプラッティングなど,様々な3次元表現に直接適用することができる。
論文参考訳（メタデータ） (2025-02-27T05:47:05Z)
Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
論文参考訳（メタデータ） (2024-09-27T03:44:07Z)
Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-07-18T16:20:56Z)
Label-Efficient 3D Brain Segmentation via Complementary 2D Diffusion Models with Orthogonal Views [10.944692719150071]
相補的な2次元拡散モデルを用いた新しい3次元脳分割法を提案する。私たちのゴールは、個々の主題に対して完全なラベルを必要とせずに、信頼性の高いセグメンテーション品質を達成することです。
論文参考訳（メタデータ） (2024-07-17T06:14:53Z)
Dense Multimodal Alignment for Open-Vocabulary 3D Scene Understanding [39.55810156545949]
本稿では,多モードアライメント(Multimodal Alignment, DMA)フレームワークを提案する。 DMA法は,屋内および屋外の様々なタスクにおいて,高い競争力を持つオープン語彙セグメンテーション性能を実現する。
論文参考訳（メタデータ） (2024-07-13T05:39:17Z)
GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。 GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-04-01T05:19:50Z)
FM-OV3D: Foundation Model-based Cross-modal Knowledge Blending for Open-Vocabulary 3D Detection [40.965892255504144]
FM-OV3Dは、オープンボキャブラリ3D検出のための基礎モデルに基づくクロスモーダル知識ブレンディングの手法である。我々は,GPT-3や安定拡散モデル,CLIPのような相互識別モデルなど,生成基盤モデルの知識を活用している。実験により,本モデルは複数の基礎モデルから知識を効率よく学習し,3次元モデルの開語彙能力を向上させることが確認された。
論文参考訳（メタデータ） (2023-12-22T06:34:23Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文参考訳（メタデータ） (2023-09-11T13:41:27Z)
OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文参考訳（メタデータ） (2022-11-28T18:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。