論文の概要: Open-RGBT: Open-vocabulary RGB-T Zero-shot Semantic Segmentation in Open-world Environments
- arxiv url: http://arxiv.org/abs/2410.06626v1
- Date: Wed, 9 Oct 2024 07:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:39:35.501700
- Title: Open-RGBT: Open-vocabulary RGB-T Zero-shot Semantic Segmentation in Open-world Environments
- Title(参考訳): Open-RGBT:オープンワールド環境におけるオープンボキャブラリRGB-Tゼロショットセマンティックセマンティックセマンティックセグメンテーション
- Authors: Meng Yu, Luojie Yang, Xunjie He, Yi Yang, Yufeng Yue,
- Abstract要約: オープン語彙RGB-TセマンティックセマンティックセグメンテーションモデルであるOpen-RGBTを提案する。
カテゴリ理解を高めるために視覚的プロンプトを取り入れたインスタンスレベルの検出提案を行う。
画像とテキストの類似性を評価するためにCLIPモデルを使用し、セマンティックな一貫性を補正し、カテゴリ識別におけるあいまいさを軽減する。
- 参考スコア(独自算出の注目度): 27.165760582797247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation is a critical technique for effective scene understanding. Traditional RGB-T semantic segmentation models often struggle to generalize across diverse scenarios due to their reliance on pretrained models and predefined categories. Recent advancements in Visual Language Models (VLMs) have facilitated a shift from closed-set to open-vocabulary semantic segmentation methods. However, these models face challenges in dealing with intricate scenes, primarily due to the heterogeneity between RGB and thermal modalities. To address this gap, we present Open-RGBT, a novel open-vocabulary RGB-T semantic segmentation model. Specifically, we obtain instance-level detection proposals by incorporating visual prompts to enhance category understanding. Additionally, we employ the CLIP model to assess image-text similarity, which helps correct semantic consistency and mitigates ambiguities in category identification. Empirical evaluations demonstrate that Open-RGBT achieves superior performance in diverse and challenging real-world scenarios, even in the wild, significantly advancing the field of RGB-T semantic segmentation.
- Abstract(参考訳): セマンティックセグメンテーションは効果的なシーン理解にとって重要な手法である。
従来のRGB-Tセマンティックセグメンテーションモデルは、事前訓練されたモデルや事前定義されたカテゴリに依存しているため、様々なシナリオにまたがる一般化に苦慮することが多い。
視覚言語モデル(VLM)の最近の進歩は、クローズドセットからオープンボキャブラリセマンティックセグメンテーション方法への移行を促進する。
しかし、これらのモデルは複雑なシーンを扱う上で、主にRGBと熱モダリティの不均一性のために困難に直面している。
このギャップに対処するために,オープン語彙RGB-TセマンティックセマンティックセグメンテーションモデルであるOpen-RGBTを提案する。
具体的には、カテゴリ理解を高めるために視覚的プロンプトを取り入れたインスタンスレベルの検出提案を行う。
さらに、CLIPモデルを用いて画像とテキストの類似性を評価し、セマンティックな一貫性を補正し、カテゴリ識別におけるあいまいさを軽減する。
実証的な評価により、Open-RGBTは、RGB-Tセマンティックセマンティックセグメンテーションの分野を著しく進歩させながら、多様で挑戦的な現実世界のシナリオにおいて優れた性能を発揮することが示された。
関連論文リスト
- Training-Free Open-Vocabulary Segmentation with Offline Diffusion-Augmented Prototype Generation [44.008094698200026]
FreeDAはオープン語彙セマンティックセグメンテーションのためのトレーニング不要な拡散拡張手法である。
FreeDAは5つのデータセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-09T18:00:25Z) - GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding [101.32590239809113]
Generalized Perception NeRF (GP-NeRF) は、広く使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に動作させる新しいパイプラインである。
本稿では,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:59:41Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Open-vocabulary Panoptic Segmentation with Embedding Modulation [71.15502078615587]
オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。
オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:58:48Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Visual Boundary Knowledge Translation for Foreground Segmentation [57.32522585756404]
視覚境界知識を明示的に考慮したモデルの構築を試みており、未確認カテゴリのセグメンテーションにおけるトレーニングの労力を減らそうとしている。
数十のラベル付きサンプルをガイダンスとして使うだけで、Trans-Netは完全な教師付きメソッドと同等のクローズな結果が得られる。
論文 参考訳(メタデータ) (2021-08-01T07:10:25Z) - A Unified Efficient Pyramid Transformer for Semantic Segmentation [40.20512714144266]
我々はコンテキスト情報と境界アーティファクトの両方を考慮してオブジェクトをセグメント化する統一フレームワーク(UN-EPT)を提唱する。
我々はまず,効率的なコンテキストモデリングのために,トランスフォーマーに基づくアテンション機構を組み込むため,スパースサンプリング戦略を適用した。
メモリフットプリントの少ないセマンティックセグメンテーションのための3つの人気のあるベンチマークで有望な性能を示す。
論文 参考訳(メタデータ) (2021-07-29T17:47:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。