論文の概要: Improving Visual Discriminability of CLIP for Training-Free Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2510.23894v1
- Date: Mon, 27 Oct 2025 22:05:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.598326
- Title: Improving Visual Discriminability of CLIP for Training-Free Open-Vocabulary Semantic Segmentation
- Title(参考訳): オープンボキャブラリセマンティックセマンティックセグメンテーションのためのCLIPの視覚的識別性の改善
- Authors: Jinxin Zhou, Jiachen Jiang, Zhihui Zhu,
- Abstract要約: LHT-CLIPは、レイヤ、ヘッド、トークンレベルのCLIPの視覚的識別性を活用する、トレーニング不要のフレームワークである。
さまざまなシナリオにまたがって最先端のパフォーマンスを実現し、実際のデプロイメントの有効性と実用性を強調している。
- 参考スコア(独自算出の注目度): 20.30263242388691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending CLIP models to semantic segmentation remains challenging due to the misalignment between their image-level pre-training objectives and the pixel-level visual understanding required for dense prediction. While prior efforts have achieved encouraging results by reorganizing the final layer and features, they often inherit the global alignment bias of preceding layers, leading to suboptimal segmentation performance. In this work, we propose LHT-CLIP, a novel training-free framework that systematically exploits the visual discriminability of CLIP across layer, head, and token levels. Through comprehensive analysis, we reveal three key insights: (i) the final layers primarily strengthen image-text alignment with sacrifice of visual discriminability (e.g., last 3 layers in ViT-B/16 and 8 layers in ViT-L/14), partly due to the emergence of anomalous tokens; (ii) a subset of attention heads (e.g., 10 out of 144 in ViT-B/16) display consistently strong visual discriminability across datasets; (iii) abnormal tokens display sparse and consistent activation pattern compared to normal tokens. Based on these findings, we propose three complementary techniques: semantic-spatial reweighting, selective head enhancement, and abnormal token replacement to effectively restore visual discriminability and improve segmentation performance without any additional training, auxiliary pre-trained networks, or extensive hyperparameter tuning. Extensive experiments on 8 common semantic segmentation benchmarks demonstrate that LHT-CLIP achieves state-of-the-art performance across diverse scenarios, highlighting its effectiveness and practicality for real-world deployment.
- Abstract(参考訳): CLIPモデルをセマンティックセグメンテーションに拡張することは、画像レベルの事前学習目標と高密度予測に必要なピクセルレベルの視覚的理解との相違により、依然として難しい。
以前の取り組みは最終レイヤと機能を再編成することで奨励的な結果を得たが、それらはしばしば前のレイヤのグローバルアライメントバイアスを継承し、最適でないセグメンテーションのパフォーマンスをもたらす。
本研究では,CLIPの視覚的識別性を階層,頭部,トークンレベルで体系的に活用する,新しいトレーニングフリーフレームワークであるLHT-CLIPを提案する。
包括的な分析を通して、私たちは3つの重要な洞察を明らかにします。
i) 最終層は主に、異常トークンの出現により、視覚的識別性の犠牲(例えば、ViT-B/16における最後の3層及びViT-L/14における8層)を伴う画像テキストアライメントを強化する。
(ii)注目ヘッドのサブセット(例えば、ViT-B/16の144のうち10)は、データセット間で一貫して強い視覚的識別性を示す。
三 異常トークンは、通常のトークンと比べ、スパースかつ一貫したアクティベーションパターンを示す。
これらの知見に基づいて,視覚的識別性を効果的に回復し,セグメンテーション性能を向上させるために,意味空間再重み付け,選択的頭部強調,異常トークン置換の3つの補完手法を提案する。
8つの共通セマンティックセグメンテーションベンチマークに関する大規模な実験は、LHT-CLIPが様々なシナリオで最先端のパフォーマンスを実現し、実世界のデプロイの有効性と実用性を強調していることを示している。
関連論文リスト
- AttriPrompt: Dynamic Prompt Composition Learning for CLIP [41.37140060183439]
AttriPromptは、テキストの意味表現を強化し洗練する新しいフレームワークである。
本稿では,提案するテキスト特徴量と非プロンプトテキスト特徴量の間に明示的な正規化制約を適用することで,自己正規化機構を導入する。
実験では、AttriPromptが最先端の手法よりも優れており、ベース・ツー・ノーベル・セッティングにおいて最大7.37%の改善が達成されている。
論文 参考訳(メタデータ) (2025-09-07T07:07:59Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - SCLIP: Rethinking Self-Attention for Dense Vision-Language Inference [11.453253140479166]
セマンティックセグメンテーションにおけるコントラッシブ言語イメージ事前学習の可能性を高める。
自己注意を再考することで、CLIPは密集した予測タスクに適応できることがわかった。
従来のCLIPビジョンエンコーダの自己保持ブロックをCSAモジュールで置き換える。
論文 参考訳(メタデータ) (2023-12-04T03:18:46Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。