論文の概要: Rethinking Prior Information Generation with CLIP for Few-Shot Segmentation
- arxiv url: http://arxiv.org/abs/2405.08458v1
- Date: Tue, 14 May 2024 09:28:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 14:38:24.827019
- Title: Rethinking Prior Information Generation with CLIP for Few-Shot Segmentation
- Title(参考訳): CLIPによるFew-Shotセグメンテーションのための事前情報生成の再考
- Authors: Jin Wang, Bingfeng Zhang, Jian Pang, Honglong Chen, Weifeng Liu,
- Abstract要約: 我々は,視覚的先行表現を視覚テキストアライメント能力に置き換えて,より信頼性の高いガイダンスを取得することを提案する。
本研究では,本手法が明らかに向上し,新しい最先端性能に達することを示す。
- 参考スコア(独自算出の注目度): 14.998239253285394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot segmentation remains challenging due to the limitations of its labeling information for unseen classes. Most previous approaches rely on extracting high-level feature maps from the frozen visual encoder to compute the pixel-wise similarity as a key prior guidance for the decoder. However, such a prior representation suffers from coarse granularity and poor generalization to new classes since these high-level feature maps have obvious category bias. In this work, we propose to replace the visual prior representation with the visual-text alignment capacity to capture more reliable guidance and enhance the model generalization. Specifically, we design two kinds of training-free prior information generation strategy that attempts to utilize the semantic alignment capability of the Contrastive Language-Image Pre-training model (CLIP) to locate the target class. Besides, to acquire more accurate prior guidance, we build a high-order relationship of attention maps and utilize it to refine the initial prior information. Experiments on both the PASCAL-5{i} and COCO-20{i} datasets show that our method obtains a clearly substantial improvement and reaches the new state-of-the-art performance.
- Abstract(参考訳): 未確認クラスのラベル情報に制限があるため、ショットのセグメンテーションは依然として困難である。
従来の手法では、凍結したビジュアルエンコーダから高レベルな特徴マップを抽出して、デコーダの重要な事前ガイダンスとしてピクセル単位の類似性を計算していた。
しかし、そのような先行表現は、これらの高次特徴写像が明らかに圏バイアスを持つため、粗粒度と新しいクラスへの一般化の欠如に悩まされる。
本研究では,視覚的先行表現を視覚テキストアライメント能力に置き換えて,より信頼性の高いガイダンスをキャプチャし,モデル一般化を強化することを提案する。
具体的には,CLIP(Contrastive Language- Image Pre-Training Model)のセマンティックアライメント機能を活用して,対象クラスを特定する2種類のトレーニングフリー事前情報生成戦略を設計する。
さらに,より正確な事前ガイダンスを得るために,注目マップの高次関係を構築し,それを利用して初期事前情報を洗練する。
PASCAL-5{i} と COCO-20{i} の2つのデータセットを用いた実験により,本手法が明らかに向上し,新たな最先端性能に達することを示す。
関連論文リスト
- PEPL: Precision-Enhanced Pseudo-Labeling for Fine-Grained Image Classification in Semi-Supervised Learning [3.801446153948012]
半教師付き学習フレームワーク内でのきめ細かい画像分類のためのPEPL(Precision-Enhanced Pseudo-Labeling)手法を提案する。
提案手法は,高品質な擬似ラベルを生成することにより,ラベルなしデータの豊富さを活用する。
ベンチマークデータセット上での最先端のパフォーマンスを実現し、既存の半教師付き戦略よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-09-05T02:32:07Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained
Ship Classification [62.425462136772666]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Gramian Attention Heads are Strong yet Efficient Vision Learners [26.79263390835444]
複数のヘッダ分類器(e, classification head)を組み込むことで表現性を向上する新しいアーキテクチャ設計を提案する。
本手法では,資源オーバーヘッドを最小に抑えつつ,複数の軽量ヘッドを強化するために,一対の特徴的類似性を利用したアグリゲーションを用いる。
われわれのモデルは最終的に、ImageNet-1Kの精度の細かいトレードオフに関して、最先端のCNNやViTを上回ることになる。
論文 参考訳(メタデータ) (2023-10-25T09:08:58Z) - CLIP Brings Better Features to Visual Aesthetics Learners [12.0962117940694]
画像美学評価(IAA)は,主観的かつ高価なラベル付け手法により,このような手法の理想的な適用シナリオの1つである。
本研究は,テキストbfCLIPベースのテキストbfSemi-supervised textbfKnowledge textbfDistillationパラダイム,すなわちtextbftextitCSKDを提案する。
論文 参考訳(メタデータ) (2023-07-28T16:00:21Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Modeling the Background for Incremental and Weakly-Supervised Semantic
Segmentation [39.025848280224785]
セマンティックセグメンテーションのための新しい漸進的なクラス学習手法を提案する。
各トレーニングステップは、すべての可能なクラスのサブセットにのみアノテーションを提供するので、バックグラウンドクラスのピクセルはセマンティックシフトを示す。
本研究では,Pascal-VOC,ADE20K,Cityscapesのデータセットを広範囲に評価し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-01-31T16:33:21Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。