論文の概要: Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2403.08426v1
- Date: Wed, 13 Mar 2024 11:23:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 14:43:37.051952
- Title: Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation
- Title(参考訳): ゼロショットセマンティックセグメンテーションのための言語駆動型ビジュアルコンセンサス
- Authors: Zicheng Zhang, Tong Zhang, Yi Zhu, Jianzhuang Liu, Xiaodan Liang,
QiXiang Ye, Wei Ke
- Abstract要約: 本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
- 参考スコア(独自算出の注目度): 114.72734384299476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pre-trained vision-language model, exemplified by CLIP, advances
zero-shot semantic segmentation by aligning visual features with class
embeddings through a transformer decoder to generate semantic masks. Despite
its effectiveness, prevailing methods within this paradigm encounter
challenges, including overfitting on seen classes and small fragmentation in
masks. To mitigate these issues, we propose a Language-Driven Visual Consensus
(LDVC) approach, fostering improved alignment of semantic and visual
information.Specifically, we leverage class embeddings as anchors due to their
discrete and abstract nature, steering vision features toward class embeddings.
Moreover, to circumvent noisy alignments from the vision part due to its
redundant nature, we introduce route attention into self-attention for finding
visual consensus, thereby enhancing semantic consistency within the same
object. Equipped with a vision-language prompting strategy, our approach
significantly boosts the generalization capacity of segmentation models for
unseen classes. Experimental results underscore the effectiveness of our
approach, showcasing mIoU gains of 4.5 on the PASCAL VOC 2012 and 3.6 on the
COCO-Stuff 164k for unseen classes compared with the state-of-the-art methods.
- Abstract(参考訳): CLIPで実証された事前学習された視覚言語モデルは、視覚的特徴とクラス埋め込みを変換器デコーダを通じて整列してセマンティックマスクを生成することで、ゼロショットセマンティックセマンティックセマンティックセマンティクスを前進させる。
その効果にもかかわらず、このパラダイムにおける一般的な手法は、見かけのクラスに過度に適合したり、マスクの小さな断片化など、課題に直面している。
これらの問題を緩和するため,言語駆動型ビジュアル・コンセンサス (LDVC) アプローチを提案し,セマンティックと視覚情報の整合性を向上し,クラス埋め込みをアンカーとして活用する。
さらに,視覚的コンセンサスを見出すための自己注意にルートアテンションを導入し,同一物体内の意味的一貫性を向上する。
視覚言語によるプロンプト戦略を取り入れた本手法は,未確認クラスに対するセグメンテーションモデルの一般化能力を大幅に向上させる。
その結果, PASCAL VOC 2012ではmIoUが4.5, COCO-Stuff 164kでは3.6であった。
関連論文リスト
- An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Masked Momentum Contrastive Learning for Zero-shot Semantic
Understanding [39.424931953675994]
自己教師付き事前学習(SSP)は、ラベル付きデータなしで有意義な特徴表現を抽出できる機械学習の一般的な手法として登場した。
本研究は、コンピュータビジョンタスクにおける純粋な自己教師付き学習(SSL)技術の有効性を評価する。
論文 参考訳(メタデータ) (2023-08-22T13:55:57Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Delving into Shape-aware Zero-shot Semantic Segmentation [18.51025849474123]
我々はtextbfshape-aware zero-shot semantic segmentation を提案する。
古典的スペクトル法に着想を得て,自己教師付き画素ワイド特徴を持つラプラシア行列の固有ベクトルを活用することを提案する。
提案手法は,PascalとCOCOの両方でゼロショットセマンティックセマンティックセグメンテーションのための最先端性能を新たに設定する。
論文 参考訳(メタデータ) (2023-04-17T17:59:46Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Cluster-based Contrastive Disentangling for Generalized Zero-Shot
Learning [25.92340532509084]
Generalized Zero-Shot Learning (GZSL) は、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
本稿では,クラスタベースのContrastive Disentangling(CCD)手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T02:50:12Z) - Zero-Shot Semantic Segmentation via Spatial and Multi-Scale Aware Visual
Class Embedding [0.0]
言語モデルなしゼロショットセマンティックセマンティックセマンティクスフレームワークSM-VCENet(Spatial and Multi-scale aware Visual Class Embedding Network)を提案する。
実験では、SM-VCENetはゼロショットセマンティックセマンティックセグメンテーションを相対的なマージンで上回ります。
論文 参考訳(メタデータ) (2021-11-30T07:39:19Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。