論文の概要: DiSCO-3D : Discovering and segmenting Sub-Concepts from Open-vocabulary queries in NeRF
- arxiv url: http://arxiv.org/abs/2507.14596v1
- Date: Sat, 19 Jul 2025 12:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.963438
- Title: DiSCO-3D : Discovering and segmenting Sub-Concepts from Open-vocabulary queries in NeRF
- Title(参考訳): DiSCO-3D : NeRFにおける開語彙クエリからのサブ概念の発見とセグメンテーション
- Authors: Doriand Petit, Steve Bourgeois, Vincent Gay-Bellile, Florian Chabot, Loïc Barthe,
- Abstract要約: DiSCO-3Dは、シーンとユーザクエリの両方に対応する3Dセマンティックセマンティックセマンティクスを提供することを目指している。
我々は、教師なしセグメンテーションと弱いオープン語彙誘導を組み合わせた、ニューラルネットワーク表現に基づくDiSCO-3Dを構築した。
オープン語彙サブ概念発見においてDiSCO-3Dが有効な性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 0.5409700620900997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D semantic segmentation provides high-level scene understanding for applications in robotics, autonomous systems, \textit{etc}. Traditional methods adapt exclusively to either task-specific goals (open-vocabulary segmentation) or scene content (unsupervised semantic segmentation). We propose DiSCO-3D, the first method addressing the broader problem of 3D Open-Vocabulary Sub-concepts Discovery, which aims to provide a 3D semantic segmentation that adapts to both the scene and user queries. We build DiSCO-3D on Neural Fields representations, combining unsupervised segmentation with weak open-vocabulary guidance. Our evaluations demonstrate that DiSCO-3D achieves effective performance in Open-Vocabulary Sub-concepts Discovery and exhibits state-of-the-art results in the edge cases of both open-vocabulary and unsupervised segmentation.
- Abstract(参考訳): 3Dセマンティックセグメンテーションは、ロボット工学、自律システム、 \textit{etc} におけるアプリケーションに対する高レベルなシーン理解を提供する。
伝統的な手法は、タスク固有の目標(オープン語彙セグメンテーション)またはシーンコンテンツ(教師なしセグメンテーション)にのみ適応する。
シーンとユーザクエリの両方に対応可能な3Dセマンティックセマンティックセマンティックセグメンテーションを提供することを目的とした,3D Open-Vocabulary Sub-Concepts Discoveryの広範な問題に対処する最初の方法であるDiSCO-3Dを提案する。
我々は、教師なしセグメンテーションと弱いオープン語彙誘導を組み合わせた、ニューラルネットワーク表現に基づくDiSCO-3Dを構築した。
オープン語彙サブ概念発見におけるDiSCO-3Dの有効性を実証し、オープン語彙と教師なしセグメンテーションの両方のエッジケースにおいて最先端の結果を示す。
関連論文リスト
- PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。
我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。
第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文 参考訳(メタデータ) (2025-06-30T08:13:07Z) - Segment Any 3D-Part in a Scene from a Sentence [50.46950922754459]
本稿では,自然言語記述に基づくシーン内の任意の3次元部分のセグメンテーションを実現することを目的とする。
本稿では,高密度部分アノテーションを用いた最初の大規模3Dデータセットである3D-PUデータセットを紹介する。
手法面では,パートレベルセグメンテーションの課題に対処する3DインプットのみのフレームワークであるOpenPart3Dを提案する。
論文 参考訳(メタデータ) (2025-06-24T05:51:22Z) - OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting [52.40697058096931]
3D Gaussian Splatting (3DGS)は神経シーン再構築の強力な表現として登場した。
我々は,OpenSplat3Dと呼ばれる手動ラベリングを必要としないオープン語彙3Dインスタンスセグメンテーションのアプローチを提案する。
LERF-mask と LERF-OVS と ScanNet++ の完全な検証セットについて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-09T12:37:15Z) - Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding [31.40722103849691]
MPECはオープンな3次元セマンティックセグメンテーションのための新しい学習手法である。
3Dエンティティ言語アライメントと、異なるポイントクラウドビュー間でのポイントエンテント一貫性の両方を使用する。
本手法は,オープンな3次元セマンティックセマンティックセグメンテーションのためのScanNetの最先端結果を実現する。
論文 参考訳(メタデータ) (2025-04-28T05:43:14Z) - Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
本稿では,階層的なオープンな3Dシーン表現を構築するためのアプローチであるSearch3Dを紹介する。
従来の方法とは異なり、Search3Dはより柔軟なオープンな3D検索パラダイムにシフトする。
体系的な評価のために,MultiScanに基づくシーンスケールのオープンボキャブラリ3D部分セグメンテーションベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-27T03:44:07Z) - CUS3D :CLIP-based Unsupervised 3D Segmentation via Object-level Denoise [9.12768731317489]
CUS3Dという新しい蒸留学習フレームワークを提案する。
オブジェクトレベルのデノシングプロジェクションモジュールは、ノイズのスクリーニングとより正確な3D機能を保証するように設計されています。
得られた特徴に基づき、3D特徴とCLIP意味的特徴空間を整合させる多モード蒸留学習モジュールを設計した。
論文 参考訳(メタデータ) (2024-09-21T02:17:35Z) - GOV-NeSF: Generalizable Open-Vocabulary Neural Semantic Fields [50.68719394443926]
Generalizable Open-Vocabulary Neural Semantic Fields (GOV-NeSF)は、オープン語彙意味論による3Dシーンの一般化可能な暗黙的表現を提供する新しいアプローチである。
GOV-NeSFは2次元および3次元のオープン語彙セマンティックセマンティックセグメンテーションにおいて最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-01T05:19:50Z) - Panoptic Vision-Language Feature Fields [27.209602602110916]
オープンボキャブラリパノプティックセグメンテーションのための第1のアルゴリズムを3次元シーンで提案する。
本アルゴリズムは,事前学習した2次元モデルから視覚言語の特徴を抽出することにより,シーンの意味的特徴場を学習する。
提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dシステムと同様のパノプティカルセグメンテーション性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T13:41:27Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。