論文の概要: JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas
- arxiv url: http://arxiv.org/abs/2603.06168v2
- Date: Thu, 12 Mar 2026 14:27:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.420029
- Title: JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas
- Title(参考訳): JOPP-3D: 点雲とパノラマ上の共同オープン語彙セマンティックセマンティックセグメンテーション
- Authors: Sandeep Inuganti, Hideaki Kanayama, Kanta Shimizu, Mahdi Chamseddine, Soichiro Yokota, Didier Stricker, Jason Rambach,
- Abstract要約: 本研究では,パノラマとポイントクラウドを併用したオープン語彙セマンティックセマンティックセマンティクスフレームワークJOPP-3Dを提案する。
我々は、RGB-Dパノラマ画像を対応する接点視点画像と3次元点雲に変換し、これらのモダリティを用いて基礎的な視覚言語の特徴を抽出、調整する。
- 参考スコア(独自算出の注目度): 13.451546315367613
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semantic segmentation across visual modalities such as 3D point clouds and panoramic images remains a challenging task, primarily due to the scarcity of annotated data and the limited adaptability of fixed-label models. In this paper, we present JOPP-3D, an open-vocabulary semantic segmentation framework that jointly leverages panoramic and point cloud data to enable language-driven scene understanding. We convert RGB-D panoramic images into their corresponding tangential perspective images and 3D point clouds, then use these modalities to extract and align foundational vision-language features. This allows natural language querying to generate semantic masks on both input modalities. Experimental evaluation on the Stanford-2D-3D-s and ToF-360 datasets demonstrates the capability of JOPP-3D to produce coherent and semantically meaningful segmentations across panoramic and 3D domains. Our proposed method achieves a significant improvement compared to the SOTA in open and closed vocabulary 2D and 3D semantic segmentation.
- Abstract(参考訳): 3次元点雲やパノラマ画像のような視覚的モダリティ間のセマンティックセグメンテーションは、注釈付きデータの不足と固定ラベルモデルの適応性に制限があるため、依然として難しい課題である。
本稿では,パノラマとポイントクラウドを併用して言語によるシーン理解を実現するオープン語彙セマンティックセマンティックセマンティクスフレームワークJOPP-3Dを提案する。
我々は、RGB-Dパノラマ画像を対応する接点視点画像と3次元点雲に変換し、これらのモダリティを用いて基礎的な視覚言語の特徴を抽出、調整する。
これにより、自然言語クエリは、両方の入力モードでセマンティックマスクを生成することができる。
Stanford-2D-3D-sとToF-360データセットの実験的評価は、JOPP-3Dがパノラマドメインと3Dドメインにまたがる一貫性と意味的に意味のあるセグメンテーションを生成する能力を示している。
提案手法は,オープンおよびクローズドな語彙2Dおよび3DセマンティックセマンティックセグメンテーションにおけるSOTAと比較して,顕著な改善を実現している。
関連論文リスト
- PGOV3D: Open-Vocabulary 3D Semantic Segmentation with Partial-to-Global Curriculum [20.206273757144547]
PGOV3Dはオープンな3Dセマンティックセマンティックセグメンテーションを改善するための部分言語カリキュラムを導入した新しいフレームワークである。
我々は、密接な意味情報を提供する部分的なシーンでモデルを事前訓練するが、比較的単純な幾何学である。
第2段階では、よりスペーサーで構造的に複雑である、完全なシーンレベルの点雲上でモデルを微調整する。
論文 参考訳(メタデータ) (2025-06-30T08:13:07Z) - Masked Point-Entity Contrast for Open-Vocabulary 3D Scene Understanding [31.40722103849691]
MPECはオープンな3次元セマンティックセグメンテーションのための新しい学習手法である。
3Dエンティティ言語アライメントと、異なるポイントクラウドビュー間でのポイントエンテント一貫性の両方を使用する。
本手法は,オープンな3次元セマンティックセマンティックセグメンテーションのためのScanNetの最先端結果を実現する。
論文 参考訳(メタデータ) (2025-04-28T05:43:14Z) - UniPLV: Towards Label-Efficient Open-World 3D Scene Understanding by Regional Visual Language Supervision [10.587237925455211]
総合的な3Dシーン理解のための単一の学習パラダイム内に,ポイントクラウド,イメージ,テキストを統一する堅牢なフレームワークであるUniPLVを提案する。
我々はUniPLVが最先端の手法をはるかに上回り、Base-AnnotatedおよびBase-Annotatedのセマンティックセグメンテーションが平均15.6%と14.8%向上したことを示す。
フリータスク。
論文 参考訳(メタデータ) (2024-12-24T03:40:05Z) - 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - PointVST: Self-Supervised Pre-training for 3D Point Clouds via
View-Specific Point-to-Image Translation [64.858505571083]
本稿では,翻訳型事前学習フレームワークであるPointVSTを提案する。
3Dポイントクラウドからそれに対応する多様な2Dレンダリング画像へのクロスモーダル変換という,新たな教師付きプレテキストタスクによって駆動される。
論文 参考訳(メタデータ) (2022-12-29T07:03:29Z) - Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point
Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。
本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T23:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。