論文の概要: Globality Strikes Back: Rethinking the Global Knowledge of CLIP in Training-Free Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2502.06818v1
- Date: Wed, 05 Feb 2025 03:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:07:11.846863
- Title: Globality Strikes Back: Rethinking the Global Knowledge of CLIP in Training-Free Open-Vocabulary Semantic Segmentation
- Title(参考訳): グローバル性に逆戻り:CLIPのグローバルな知識を再考する - 学習自由なオープン語彙セマンティックセマンティックセマンティックセグメンテーション
- Authors: Jingyun Wang, Cilin Yan, Guoliang Kang,
- Abstract要約: 最近の研究は、CLIPを修正して、トレーニング不要な方法でセマンティックセグメンテーションを行う(TF-OVSS)。
これらの変更により、CLIPがグローバルコンテキスト情報を集約する能力は大きく低下する。
TF-OVSSタスクを促進するために,CLIPの有益なグローバル知識をマイニングするGCLIPという新しい手法を提案する。
- 参考スコア(独自算出の注目度): 5.3499687969383345
- License:
- Abstract: Recent works modify CLIP to perform open-vocabulary semantic segmentation in a training-free manner (TF-OVSS). In CLIP, patch-wise image representations mainly encode the homogeneous image-level properties and thus are not discriminative enough, hindering its application to the dense prediction task. Previous works make image features more distinct across patches, through making each patch mainly attend to itself or the neighboring patches within a narrow local window. However, with their modifications, the ability of CLIP to aggregate global context information, which is known to be useful for distinguishing confusing categories, is largely weakened. In this paper, we propose a new method named GCLIP, which mines the beneficial global knowledge of CLIP to facilitate the TF-OVSS task. Firstly, we aim to equip the last-block attention with image-level properties while not introducing homogeneous attention patterns across patches. In GCLIP, we merge the attention from the global token emerging blocks with the Query-Query attention to realize this goal. Secondly, we aim to make the Value embeddings of the last-block attention module more distinct and semantically correlated. To realize this, we design a novel channel suppression strategy. As the representation of each patch is finally determined by the attention weights and the Value embeddings, our method can generate more discriminative patch-level image features while absorbing global context information. Extensive experiments on five standard benchmarks demonstrate that our method consistently outperforms previous state-of-the-arts.
- Abstract(参考訳): 最近の研究は、CLIPをトレーニングフリーな方法でオープン語彙セマンティックセマンティックセグメンテーション(TF-OVSS)を実行するように修正している。
CLIPでは、パッチワイド画像表現は、主に均質な画像レベルの特性を符号化するので、識別に十分ではないため、密度の高い予測タスクへの適用を妨げている。
以前の作業では、各パッチが主にローカルの狭いウィンドウ内にあるパッチや近隣のパッチに関連付けることで、パッチ間でイメージ機能をより明確にしている。
しかし、それらの修正により、混乱したカテゴリを識別するのに有用なグローバルコンテキスト情報を集約するCLIPの機能は大きく低下している。
本稿では,TF-OVSSタスクを促進するために,CLIPの有益なグローバル知識をマイニングするGCLIPという新しい手法を提案する。
まず、パッチ間の均一な注意パターンを導入せず、画像レベルの特性に最終ブロックの注意を合わせることを目的とする。
GCLIPでは、グローバルトークンの出現するブロックからの注意とQuery-Queryの注意をマージして、この目標を実現する。
次に、最後のブロックアテンションモジュールのバリュー埋め込みをより明確にし、セマンティックに相関させることを目指しています。
これを実現するために,我々は新しいチャネル抑制戦略を設計する。
それぞれのパッチの表現はアテンション重みとバリュー埋め込みによって決定されるので,グローバルなコンテキスト情報を吸収しながら,より識別性の高いパッチレベルの画像特徴を生成することができる。
5つの標準ベンチマークでの大規模な実験により、我々の手法は従来よりも一貫して優れていたことが証明された。
関連論文リスト
- ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - Point Cloud Understanding via Attention-Driven Contrastive Learning [64.65145700121442]
トランスフォーマーベースのモデルは、自己認識機構を活用することにより、先進的なポイントクラウド理解を持つ。
PointACLは、これらの制限に対処するために設計された、注意駆動のコントラスト学習フレームワークである。
本手法では, 注意駆動型動的マスキング手法を用いて, モデルが非集中領域に集中するように誘導する。
論文 参考訳(メタデータ) (2024-11-22T05:41:00Z) - Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation [38.16802763051431]
トレーニング不要なセマンティックセグメンテーション戦略であるCLIPtraseを提案する。
パッチ間の自己相関を補正することで、局所的な特徴認識を高める。
実験の結果、CLIPよりも平均して9つのセグメンテーションベンチマークで22.3%先行していることがわかった。
論文 参考訳(メタデータ) (2024-07-11T08:12:16Z) - LDCA: Local Descriptors with Contextual Augmentation for Few-Shot
Learning [0.0]
LDCA(Local Descriptor with Contextual Augmentation)と呼ばれる新しいアプローチを導入する。
LDCAは、適応的グローバルな文脈拡張モジュールを活用することで、局所的およびグローバルな理解のギャップを埋める。
実験により,本手法の有効性を実証し,粒度分類データセットの次ベストに対して最大20%の絶対的改善を示した。
論文 参考訳(メタデータ) (2024-01-24T14:44:48Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary
Multi-Label Classification of CLIP Without Training [29.431698321195814]
Contrastive Language-Image Pre-Training (CLIP) はオープン語彙分類において顕著な能力を示した。
CLIPは、グローバル機能が最も顕著なクラスに支配される傾向があるため、マルチラベルデータセットのパフォーマンスが低い。
画像タグを得るための局所言語フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:15:40Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。