Fugu-MT 論文翻訳(概要): Panoptic Vision-Language Feature Fields

論文の概要: Panoptic Vision-Language Feature Fields

arxiv url: http://arxiv.org/abs/2309.05448v1
Date: Mon, 11 Sep 2023 13:41:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 12:37:54.361038
Title: Panoptic Vision-Language Feature Fields
Title（参考訳）: パノプティカル・ビジョン-言語的特徴
Authors: Haoran Chen, Kenneth Blomqvist, Francesco Milano and Roland Siegwart
Abstract要約: 本稿では,オープンボキャブラリパノプティックセグメンテーションのための最初のアルゴリズムを提案し,セマンティックセグメンテーションとインスタンスセグメンテーションの両方を同時に実行した。提案手法は,HyperSim, ScanNet, Replicaデータセット上の最先端のクローズドセット3Dパノプティクスシステムに対して同等の性能を実現する。
参考スコア（独自算出の注目度）: 27.209602602110916
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, methods have been proposed for 3D open-vocabulary semantic segmentation. Such methods are able to segment scenes into arbitrary classes given at run-time using their text description. In this paper, we propose to our knowledge the first algorithm for open-vocabulary panoptic segmentation, simultaneously performing both semantic and instance segmentation. Our algorithm, Panoptic Vision-Language Feature Fields (PVLFF) learns a feature field of the scene, jointly learning vision-language features and hierarchical instance features through a contrastive loss function from 2D instance segment proposals on input frames. Our method achieves comparable performance against the state-of-the-art close-set 3D panoptic systems on the HyperSim, ScanNet and Replica dataset and outperforms current 3D open-vocabulary systems in terms of semantic segmentation. We additionally ablate our method to demonstrate the effectiveness of our model architecture. Our code will be available at https://github.com/ethz-asl/autolabel.
Abstract（参考訳）: 近年,3次元オープン語彙セマンティックセグメンテーションの手法が提案されている。このようなメソッドは、シーンをテキスト記述を使用して実行時に与えられた任意のクラスに分割することができる。本稿では,オープンボキャブラリパノプティックセグメンテーションのための最初のアルゴリズムについて,セマンティックセグメンテーションとインスタンスセグメンテーションを同時に行うことを提案する。提案手法であるPVLFF(Panoptic Vision-Language Feature Fields)は,入力フレーム上の2次元インスタンスセグメントの提案から,コントラスト損失関数を用いて視覚言語特徴と階層的インスタンス特徴を共同学習する。提案手法は,HyperSim,ScanNet,Replicaの3Dパノプティクスシステムと同等の性能を達成し,セマンティックセグメンテーションの観点から現在の3Dオープン語彙システムより優れている。また,モデルアーキテクチャの有効性を示すために,手法を改良する。私たちのコードはhttps://github.com/ethz-asl/autolabelで利用可能です。

関連論文リスト

DiSCO-3D : Discovering and segmenting Sub-Concepts from Open-vocabulary queries in NeRF [0.5409700620900997]
DiSCO-3Dは、シーンとユーザクエリの両方に対応する3Dセマンティックセマンティックセマンティクスを提供することを目指している。我々は、教師なしセグメンテーションと弱いオープン語彙誘導を組み合わせた、ニューラルネットワーク表現に基づくDiSCO-3Dを構築した。オープン語彙サブ概念発見においてDiSCO-3Dが有効な性能を発揮することを示す。
論文参考訳（メタデータ） (2025-07-19T12:46:20Z)
PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文参考訳（メタデータ） (2025-06-30T08:13:07Z)
OpenSplat3D: Open-Vocabulary 3D Instance Segmentation using Gaussian Splatting [52.40697058096931]
3D Gaussian Splatting (3DGS)は神経シーン再構築の強力な表現として登場した。我々は,OpenSplat3Dと呼ばれる手動ラベリングを必要としないオープン語彙3Dインスタンスセグメンテーションのアプローチを提案する。 LERF-mask と LERF-OVS と ScanNet++ の完全な検証セットについて,本手法の有効性を実証した。
論文参考訳（メタデータ） (2025-06-09T12:37:15Z)
Search3D: Hierarchical Open-Vocabulary 3D Segmentation [78.47704793095669]
オープンな3Dセグメンテーションにより、自由形式のテキスト記述を用いた3D空間の探索が可能となる。本稿では,階層的なオープンな3Dシーン表現を構築するアプローチであるSearch3Dを紹介する。本手法は,より柔軟なオープンな3次元検索設定にシフトすることで,オープン語彙のインスタンスレベル3次元セグメンテーションの能力を拡大することを目的としている。
論文参考訳（メタデータ） (2024-09-27T03:44:07Z)
Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2024-07-18T16:20:56Z)
3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文参考訳（メタデータ） (2024-07-13T09:39:11Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文参考訳（メタデータ） (2023-08-01T07:50:14Z)
Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文参考訳（メタデータ） (2023-05-23T14:16:49Z)
Neural Implicit Vision-Language Feature Fields [40.248658511361015]
ゼロショットボリュームのオープン語彙セマンティックシーンセグメンテーション法を提案する。本手法は,視覚言語モデルからニューラル暗黙表現に画像特徴を融合させることができるという知見に基づいている。本研究では,本手法が実世界のノイズの多いデータ上で動作し,テキストのプロンプトに適応してリアルタイムにリアルタイムにリアルタイムに動作可能であることを示す。
論文参考訳（メタデータ） (2023-03-20T09:38:09Z)
OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文参考訳（メタデータ） (2022-11-28T18:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。