論文の概要: ICPC: Instance-Conditioned Prompting with Contrastive Learning for
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2308.07078v1
- Date: Mon, 14 Aug 2023 11:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 13:26:50.124164
- Title: ICPC: Instance-Conditioned Prompting with Contrastive Learning for
Semantic Segmentation
- Title(参考訳): ICPC:セマンティックセグメンテーションのためのコントラスト学習によるインスタンス記述型プロンプト
- Authors: Chaohui Yu, Qiang Zhou, Zhibin Wang, Fan Wang
- Abstract要約: 最近の研究は、知識をCLIPから素早い学習を通して意味的セグメンテーションに移行することで、有望なパフォーマンスを実現することができることを示している。
設計と損失関数の2つの側面から視覚テキストアライメントの質を向上させることに注力する。
我々は、視覚とテキストの埋め込みのアライメントを洗練させるために、アライメント誘導によるコントラスト損失を提案する。
- 参考スコア(独自算出の注目度): 26.25673603166731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern supervised semantic segmentation methods are usually finetuned based
on the supervised or self-supervised models pre-trained on ImageNet. Recent
work shows that transferring the knowledge from CLIP to semantic segmentation
via prompt learning can achieve promising performance. The performance boost
comes from the feature enhancement with multimodal alignment, i.e., the dot
product between vision and text embeddings. However, how to improve the
multimodal alignment for better transfer performance in dense tasks remains
underexplored. In this work, we focus on improving the quality of vision-text
alignment from two aspects of prompting design and loss function, and present
an instance-conditioned prompting with contrastive learning (ICPC) framework.
First, compared with the static prompt designs, we reveal that dynamic
prompting conditioned on image content can more efficiently utilize the text
encoder for complex dense tasks. Second, we propose an align-guided contrastive
loss to refine the alignment of vision and text embeddings. We further propose
lightweight multi-scale alignment for better performance. Extensive experiments
on three large-scale datasets (ADE20K, COCO-Stuff10k, and ADE20K-Full)
demonstrate that ICPC brings consistent improvements across diverse backbones.
Taking ResNet-50 as an example, ICPC outperforms the state-of-the-art
counterpart by 1.71%, 1.05%, and 1.41% mIoU on the three datasets,
respectively.
- Abstract(参考訳): 現代の教師付きセマンティックセグメンテーション法は通常、ImageNetで事前訓練された教師付きまたは自己教師付きモデルに基づいて微調整される。
近年の研究では,クリップからプロンプト・ラーニングによる意味セグメンテーションへの知識の伝達が有望な性能を達成できることが示されている。
パフォーマンス向上は,マルチモーダルアライメントによる機能拡張,すなわち視覚とテキスト埋め込み間のドット生成によるものだ。
しかし,高密度タスクにおける伝達性能向上のためのマルチモーダルアライメントの改善方法はまだ未検討である。
本研究では,デザインと損失関数の2つの側面から視覚テキストアライメントの品質向上に焦点をあて,コントラスト学習(icpc)フレームワークを用いたインスタンスコンディションプロンプトを提案する。
まず,静的プロンプト設計と比較して,画像コンテンツに条件づけられた動的プロンプトが複雑なタスクに対してより効率的にテキストエンコーダを活用できることを明らかにする。
第2に,視覚とテキスト埋め込みのアライメントを洗練するために,アライメントガイドによるコントラスト損失を提案する。
さらに,性能向上のための軽量なマルチスケールアライメントを提案する。
3つの大規模なデータセット(ADE20K、COCO-Stuff10k、ADE20K-Full)に対する大規模な実験は、ICPCがさまざまなバックボーンに一貫した改善をもたらすことを示した。
ResNet-50を例として挙げると、ICPCは3つのデータセットでそれぞれ1.71%、1.05%、1.41%のmIoUで最先端である。
関連論文リスト
- Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation [82.95830628372845]
本稿では,Open-Vocabulary encoder(OVS)分野における協調視覚テキスト最適化機構を提案する。
我々の知る限り、私たちはOVSフィールド内で協調的な視覚テキスト最適化メカニズムを最初に確立しました。
オープン語彙のセマンティックセグメンテーションでは、この手法は、+0.5, +2.3, +3.4, +0.4, +1.1 mIoU の従来の最先端アプローチよりも優れている。
論文 参考訳(メタデータ) (2024-08-01T17:48:08Z) - IntCoOp: Interpretability-Aware Vision-Language Prompt Tuning [94.52149969720712]
IntCoOpは、プロンプトチューニング中に属性レベルの帰納バイアスとクラス埋め込みを共同で調整することを学ぶ。
IntCoOpは10種類のデータセットの平均パフォーマンスを7.35%改善した。
論文 参考訳(メタデータ) (2024-06-19T16:37:31Z) - CLIP Brings Better Features to Visual Aesthetics Learners [12.0962117940694]
画像美学評価(IAA)は,主観的かつ高価なラベル付け手法により,このような手法の理想的な適用シナリオの1つである。
本研究は,テキストbfCLIPベースのテキストbfSemi-supervised textbfKnowledge textbfDistillationパラダイム,すなわちtextbftextitCSKDを提案する。
論文 参考訳(メタデータ) (2023-07-28T16:00:21Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。