論文の概要: Prototype-Based Test-Time Adaptation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.21360v1
- Date: Thu, 23 Apr 2026 07:20:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.356653
- Title: Prototype-Based Test-Time Adaptation of Vision-Language Models
- Title(参考訳): 視覚言語モデルのプロトタイプベーステスト時間適応
- Authors: Zhaohong Huang, Yuxin Zhang, Wenjing Liu, Fei Chao, Rongrong Ji,
- Abstract要約: PTA(Prototype-based Test-Time Adaptation)
PTAは一連のクラス固有の知識プロトタイプを使用して、テストサンプルから知識を蓄積する。
PTAは最先端の性能を達成しつつ、極めて高い効率を達成する。
- 参考スコア(独自算出の注目度): 58.28899599773308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time adaptation (TTA) has emerged as a promising paradigm for vision-language models (VLMs) to bridge the distribution gap between pre-training and test data. Recent works have focused on backpropagation-free TTA methods that rely on cache-based designs, but these introduce two key limitations. First, inference latency increases as the cache grows with the number of classes, leading to inefficiencies in large-scale settings. Second, suboptimal performance occurs when the cache contains insufficient or incorrect samples. In this paper, we present Prototype-Based Test-Time Adaptation (PTA), an efficient and effective TTA paradigm that uses a set of class-specific knowledge prototypes to accumulate knowledge from test samples. Particularly, knowledge prototypes are adaptively weighted based on the zero-shot class confidence of each test sample, incorporating the sample's visual features into the corresponding class-specific prototype. It is worth highlighting that the knowledge from past test samples is integrated and utilized solely in the prototypes, eliminating the overhead of cache population and retrieval that hinders the efficiency of existing TTA methods. This endows PTA with extremely high efficiency while achieving state-of-the-art performance on 15 image recognition benchmarks and 4 robust point cloud analysis benchmarks. For example, PTA improves CLIP's accuracy from 65.64% to 69.38% on 10 cross-domain benchmarks, while retaining 92% of CLIP's inference speed on large-scale ImageNet-1K. In contrast, the cache-based TDA achieves a lower accuracy of 67.97% and operates at only 50% of CLIP's inference speed.
- Abstract(参考訳): テスト時適応(TTA)は、事前学習とテストデータ間の分配ギャップを埋めるために視覚言語モデル(VLM)の有望なパラダイムとして登場した。
最近の研究はキャッシュベースの設計に依存するバックプロパゲーションフリーなTTA手法に重点を置いているが、これらには2つの重要な制限がある。
まず、キャッシュの数が増えるにつれて推論遅延が増加し、大規模な設定では非効率になる。
第2に、キャッシュに不十分なサンプルや不正なサンプルが含まれている場合、最適以下のパフォーマンスが発生する。
本稿では,テストサンプルから知識を蓄積するために,クラス固有の知識プロトタイプのセットを用いて,効率的なTTAパラダイムであるPTA(Prototype-Based Test-Time Adaptation)を提案する。
特に、知識プロトタイプは、各テストサンプルのゼロショットクラスの信頼性に基づいて適応的に重み付けされ、サンプルの視覚的特徴を対応するクラス固有のプロトタイプに組み込む。
過去のテストサンプルから得た知識がプロトタイプにのみ統合され利用されており、キャッシュ人口のオーバーヘッドや既存のTTAメソッドの効率を損なう検索のオーバーヘッドをなくすことは注目に値する。
これにより、15の画像認識ベンチマークと4つの堅牢なポイントクラウド分析ベンチマークで最先端のパフォーマンスを達成しつつ、極めて高い効率でPTAを実現することができる。
例えば、PTAは10のクロスドメインベンチマークでCLIPの精度を65.64%から69.38%に改善し、大規模なImageNet-1KではCLIPの推論速度の92%を維持している。
対照的に、キャッシュベースのTDAは67.97%の精度で、CLIPの推論速度の50%しか動作しない。
関連論文リスト
- Multi-Cache Enhanced Prototype Learning for Test-Time Generalization of Vision-Language Models [7.542207462593201]
ゼロショット設定では、テスト時間適応はテストフェーズからのラベルなしデータを用いて事前訓練されたモデルを調整し、未知のテスト分布の性能を向上させる。
本研究は,キャッシュ強化性能とクラス内コンパクト性との正の相関性を明らかにする。
3つのキャッシュを備えたマルチキャッシュ拡張プロトタイプベーステスト時間適応(MCP)を提案する。
論文 参考訳(メタデータ) (2025-08-02T06:43:43Z) - Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。
本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。
多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文 参考訳(メタデータ) (2024-11-26T00:15:37Z) - TAPT: Test-Time Adversarial Prompt Tuning for Robust Inference in Vision-Language Models [53.91006249339802]
視覚的対人攻撃に対するCLIPの推論ロバスト性を高めるため, TAPT(Test-Time Adversarial Prompt Tuning)と呼ばれる新しい防御手法を提案する。
TAPTは、CLIPの推論プロセスを堅牢化するために、防御的バイモーダル(テキストと視覚)のプロンプトを学習するテストタイムディフェンス手法である。
我々は、ImageNetなど10のゼロショットデータセットを含む11のベンチマークデータセットに対するTAPTの有効性を評価する。
論文 参考訳(メタデータ) (2024-11-20T08:58:59Z) - DOTA: Distributional Test-Time Adaptation of Vision-Language Models [69.41389326333771]
トレーニングデータとテストデータの間に大きな分散ギャップが存在する場合、視覚言語の基礎モデルは信頼できない。
本稿では,DOTA(DistributiOnal Test-time Adaptation)を提案する。
この分散中心のアプローチは、モデルが継続的に学習し、デプロイメント環境に適応することを可能にする。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Decoupled Prototype Learning for Reliable Test-Time Adaptation [50.779896759106784]
テスト時間適応(TTA)は、推論中にトレーニング済みのソースモデルをターゲットドメインに継続的に適応させるタスクである。
1つの一般的なアプローチは、推定擬似ラベルによるクロスエントロピー損失を伴う微調整モデルである。
本研究は, 各試料の分類誤差を最小化することで, クロスエントロピー損失の脆弱性がラベルノイズを引き起こすことを明らかにした。
本稿では,プロトタイプ中心の損失計算を特徴とする新しいDPL法を提案する。
論文 参考訳(メタデータ) (2024-01-15T03:33:39Z) - Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior
Refinement [24.108008515395458]
本稿では,CLIP の事前学習知識に対する適応的事前 rEfinement 手法である APE を提案する。
11以上のベンチマークの平均精度では、APEとAPE-Tはいずれも最先端に達し、x30より学習可能なパラメータの少ない16ショットで、それぞれ1.59%、+1.99%で2番目のベットを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:54Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。