論文の概要: Class-Aware Prototype Learning with Negative Contrast for Test-Time Adaptation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.19802v1
- Date: Wed, 22 Oct 2025 17:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.239081
- Title: Class-Aware Prototype Learning with Negative Contrast for Test-Time Adaptation of Vision-Language Models
- Title(参考訳): 視覚言語モデルのテスト時間適応のための負のコントラストを用いたクラス認識型プロトタイプ学習
- Authors: Xiaozhen Qiao, Jingkai Zhao, Yuqiu Jiang, Xianda Guo, Zhe Sun, Hongyuan Zhang, Xuelong Li,
- Abstract要約: VLM(Vision-Language Models)は、大規模な画像テキスト事前学習を通じて、印象的なゼロショットの一般化を実証する。
しかし、デプロイメントディストリビューションがトレーニングディストリビューションから分岐すると、パフォーマンスが低下する可能性がある。
テスト時間適応(TTA)メソッドは、ラベルのないターゲットデータを使用してモデルを更新する。
軽量TTAフレームワークである textbfNegative textbfContrast(textbfCPL-NC) を用いた textbfClass-Aware textbfPrototype textbfL を提案する。
- 参考スコア(独自算出の注目度): 48.61795272482598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) demonstrate impressive zero-shot generalization through large-scale image-text pretraining, yet their performance can drop once the deployment distribution diverges from the training distribution. To address this, Test-Time Adaptation (TTA) methods update models using unlabeled target data. However, existing approaches often ignore two key challenges: prototype degradation in long-tailed distributions and confusion between semantically similar classes. To tackle these issues, we propose \textbf{C}lass-Aware \textbf{P}rototype \textbf{L}earning with \textbf{N}egative \textbf{C}ontrast(\textbf{CPL-NC}), a lightweight TTA framework designed specifically for VLMs to enhance generalization under distribution shifts. CPL-NC introduces a \textit{Class-Aware Prototype Cache} Module that dynamically adjusts per-class capacity based on test-time frequency and activation history, with a rejuvenation mechanism for inactive classes to retain rare-category knowledge. Additionally, a \textit{Negative Contrastive Learning} Mechanism identifies and constrains hard visual-textual negatives to improve class separability. The framework employs asymmetric optimization, refining only textual prototypes while anchoring on stable visual features. Experiments on 15 benchmarks show that CPL-NC consistently outperforms prior TTA methods across both ResNet-50 and ViT-B/16 backbones.
- Abstract(参考訳): VLM(Vision-Language Models)は、大規模な画像テキスト事前トレーニングを通じて、印象的なゼロショットの一般化を実証するが、デプロイメント分布がトレーニング分布から分岐すると、その性能が低下する可能性がある。
これを解決するために、Test-Time Adaptation (TTA)メソッドは、ラベルのないターゲットデータを使用してモデルを更新する。
しかしながら、既存のアプローチでは、長い尾の分布におけるプロトタイプの分解と、意味論的に類似したクラス間の混乱という2つの主要な課題を無視することが多い。
これらの問題に対処するために,VLM 向けに設計された軽量 TTA フレームワークである \textbf{C}lass-Aware \textbf{P}rototype \textbf{L}earning with \textbf{N}egative \textbf{C}ontrast(\textbf{CPL-NC}) を提案する。
CPL-NCは、テスト時間頻度とアクティベーション履歴に基づいてクラス単位のキャパシティを動的に調整する \textit{Class-Aware Prototype Cache} Module を導入した。
さらに、‘textit{Negative Contrastive Learning} メカニズムは、クラス分離性を改善するために、ハードビジュアルなテキスト陰性を特定し、制約する。
このフレームワークは非対称な最適化を採用し、安定した視覚的特徴を保ちながらテキストプロトタイプのみを精錬する。
15ベンチマークの実験では、CPL-NCはResNet-50とViT-B/16のバックボーンでTTAメソッドよりも一貫して優れていた。
関連論文リスト
- Dynamic Multimodal Prototype Learning in Vision-Language Models [44.84161970425967]
textbfProtoMMは、テスト期間中に視覚言語モデルに適応するためのマルチモーダルプロトタイプを構築する、トレーニング不要のフレームワークである。
プロトタイプをテキスト記述や視覚的粒子の離散分布と見なすことで、ProtoMMは総合的なプロトタイプ学習のためのマルチモーダルな特徴を組み合わせることができる。
論文 参考訳(メタデータ) (2025-07-04T15:31:47Z) - Post-pre-training for Modality Alignment in Vision-Language Foundation Models [12.110530026601968]
本稿では,CLIPモデルの事前学習と微調整の段階における事前学習手法であるCLIP-Refineを提案する。
ゼロショットのパフォーマンス劣化を伴わずに、小さな画像テキストデータセットに対する1エポックトレーニングとフィーチャースペースの整合性を目指す。
論文 参考訳(メタデータ) (2025-04-17T07:46:19Z) - PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination [14.50214193838818]
CLIPのようなビジョン言語(V-L)モデルのゼロショット一般化は、広く採用されている。
従来の手法では、テスト時のプロンプトチューニングを使用して、モデルを目に見えない領域に適応させたが、不均衡なクラス分布の問題を見落としていた。
本研究では,テストサンプルとフィルタ付き拡張ビューで得られた平均クラス確率によって重み付けされたクラス認識型プロトタイプアライメントを採用する。
論文 参考訳(メタデータ) (2024-04-11T07:26:00Z) - Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models [19.683461002518147]
Test-Time Prototype Shifting (TPS)は、未ラベルのテスト入力を使用したデータセットのテストに視覚言語モデルを適用するために設計された先駆的なアプローチである。
TPSは、その後の予測のために最適化不要なプロトタイプの再利用を促進するだけでなく、プロンプトエンジニアリングにおける現在の進歩とシームレスに統合することを可能にする。
我々のフレームワークの特筆すべき点は、従来のテキストプロンプトチューニング手法と比較して、メモリと計算要求が大幅に削減されていることである。
論文 参考訳(メタデータ) (2024-03-19T17:54:34Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。