論文の概要: TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2304.07547v1
- Date: Sat, 15 Apr 2023 12:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 18:35:20.899141
- Title: TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic
Segmentation
- Title(参考訳): TagCLIP:オープン語彙セマンティックセグメンテーションの識別能力の向上
- Authors: Jingyao Li, Pengguang Chen, Shengju Qian, Jiaya Jia
- Abstract要約: コントラスト言語-画像事前学習(CLIP)は,画素レベルのオープン語彙学習タスクにおいて大きな可能性を秘めている。
既存のモデルは、未知のクラスから入力ピクセルを容易に識別し、意味的に類似したクラスと混同する。
提案する最適化問題を,個別にセマンティックマッチングを行い,識別能力の向上のために信頼性を判断する2つの並列プロセスに分解する。
- 参考スコア(独自算出の注目度): 55.575224613422726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent success of Contrastive Language-Image Pre-training~(CLIP) has shown
great promise in pixel-level open-vocabulary learning tasks. A general paradigm
utilizes CLIP's text and patch embeddings to generate semantic masks. However,
existing models easily misidentify input pixels from unseen classes, thus
confusing novel classes with semantically-similar ones. In our work, we
disentangle the ill-posed optimization problem into two parallel processes: one
performs semantic matching individually, and the other judges reliability for
improving discrimination ability. Motivated by special tokens in language
modeling that represents sentence-level embeddings, we design a trusty token
that decouples the known and novel category prediction tendency. With almost no
extra overhead, we upgrade the pixel-level generalization capacity of existing
models effectively. Our TagCLIP (CLIP adapting with Trusty-guidance) boosts the
IoU of unseen classes by 7.4% and 1.7% on PASCAL VOC 2012 and COCO-Stuff 164K.
- Abstract(参考訳): 最近のコントラスト型言語イメージプリトレーニング(clip)の成功は、ピクセルレベルのオープンボキャブラリー学習タスクにおいて大きな期待を示している。
一般的なパラダイムでは、CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する。
しかし、既存のモデルは、未知のクラスから入力ピクセルを誤識別しやすく、意味的に類似したクラスと混同する。
本研究では,不適切な最適化問題を2つの並列プロセスに分解する。一方は個別にセマンティックマッチングを行い,他方は識別能力の向上のために信頼性を判断する。
文レベルの埋め込みを表す言語モデリングにおける特別なトークンによって動機付けられ、既知および新奇なカテゴリー予測傾向を分離する信頼トークンを設計する。
オーバーヘッドがほとんどないため、既存のモデルのピクセルレベルの一般化能力を効果的にアップグレードする。
我々のTagCLIP (CLIP adapting with Trusty-guidance)は、PASCAL VOC 2012とCOCO-Stuff 164Kで、未確認クラスのIoUを7.4%と1.7%向上させる。
関連論文リスト
- Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - CLIP-S$^4$: Language-Guided Self-Supervised Semantic Segmentation [15.29479338808226]
自己教師付き画素表現学習と視覚言語モデルを利用して,様々なセマンティックセグメンテーションタスクを実現するCLIP-S$4を提示する。
当社のアプローチでは,4つの一般的なベンチマークに対して,一貫した,実質的なパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-05-01T19:01:01Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - ProtoCLIP: Prototypical Contrastive Language Image Pretraining [12.067061175987075]
このようなグループ化を強化するために,プロトタイプコントラスト言語画像事前学習(ProtoCLIP)を導入している。
ProtoCLIPは、画像空間とテキスト空間の間のプロトタイプレベルの識別を設定し、高いレベルの構造的知識を効率的に伝達する。
ProtoCLIPはオンラインのエピソードトレーニング戦略でトレーニングされており、無制限のデータまでスケールアップすることができる。
論文 参考訳(メタデータ) (2022-06-22T11:55:53Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z) - DenseCLIP: Extract Free Dense Labels from CLIP [130.3830819077699]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、オープンボキャブラリゼロショット画像認識において画期的な進歩を遂げた。
DenseCLIP+はSOTAトランスダクティブなゼロショットセマンティックセグメンテーション法を大きなマージンで上回る。
我々の発見は、DenseCLIPが高密度予測タスクの信頼性の高い新たな監視源となることを示唆している。
論文 参考訳(メタデータ) (2021-12-02T09:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。