論文の概要: Adaptive Cache Enhancement for Test-Time Adaptation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.07570v1
- Date: Mon, 11 Aug 2025 03:03:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.917006
- Title: Adaptive Cache Enhancement for Test-Time Adaptation of Vision-Language Models
- Title(参考訳): 視覚言語モデルのテスト時間適応のための適応キャッシュ強化
- Authors: Khanh-Binh Nguyen, Phuoc-Nguyen Bui, Hyunseung Choo, Duc Thanh Nguyen,
- Abstract要約: 視覚言語モデル (VLM) は、ゼロショット一般化が際立つが、分布シフトによる性能劣化に悩まされる。
TTA(Test-Time Adaptation)は、推論中のVLMのオンライン最適化を可能にし、アノテーション付きデータの必要性をなくすことによって、この問題に対処する。
本稿では,高信頼あるいは低エントロピー画像のクラスごとの埋め込みを選択的に記憶することで,堅牢なキャッシュを構築する適応キャッシュ拡張(ACE)フレームワークを紹介する。
- 参考スコア(独自算出の注目度): 6.403304540670581
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-language models (VLMs) exhibit remarkable zero-shot generalization but suffer performance degradation under distribution shifts in downstream tasks, particularly in the absence of labeled data. Test-Time Adaptation (TTA) addresses this challenge by enabling online optimization of VLMs during inference, eliminating the need for annotated data. Cache-based TTA methods exploit historical knowledge by maintaining a dynamic memory cache of low-entropy or high-confidence samples, promoting efficient adaptation to out-of-distribution data. Nevertheless, these methods face two critical challenges: (1) unreliable confidence metrics under significant distribution shifts, resulting in error accumulation within the cache and degraded adaptation performance; and (2) rigid decision boundaries that fail to accommodate substantial distributional variations, leading to suboptimal predictions. To overcome these limitations, we introduce the Adaptive Cache Enhancement (ACE) framework, which constructs a robust cache by selectively storing high-confidence or low-entropy image embeddings per class, guided by dynamic, class-specific thresholds initialized from zero-shot statistics and iteratively refined using an exponential moving average and exploration-augmented updates. This approach enables adaptive, class-wise decision boundaries, ensuring robust and accurate predictions across diverse visual distributions. Extensive experiments on 15 diverse benchmark datasets demonstrate that ACE achieves state-of-the-art performance, delivering superior robustness and generalization compared to existing TTA methods in challenging out-of-distribution scenarios.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)は、顕著なゼロショットの一般化を示すが、下流のタスク、特にラベル付きデータの欠如による分散シフトによる性能劣化に悩まされる。
TTA(Test-Time Adaptation)は、推論中のVLMのオンライン最適化を可能にし、アノテーション付きデータの必要性をなくすことによって、この問題に対処する。
キャッシュベースのTTA手法は、低エントロピーまたは高信頼のサンプルの動的メモリキャッシュを維持することにより、歴史的知識を活用する。
それにもかかわらず、これらの手法は、(1)大きな分散シフトの下で信頼できない信頼度を計測し、キャッシュ内でエラーを蓄積し、適応性能を低下させる。
この制限を克服するために,ゼロショット統計から初期化した動的でクラス固有のしきい値に導かれる高信頼あるいは低エントロピー画像の埋め込みを選択的に格納し,指数的な移動平均値と探索拡張更新を用いて反復的に洗練することにより,堅牢なキャッシュを構築するAdaptive Cache Enhancement (ACE)フレームワークを導入する。
このアプローチは、適応的でクラスワイドな決定境界を可能にし、多様な視覚分布にわたる堅牢で正確な予測を保証する。
15の多様なベンチマークデータセットに対する大規模な実験は、ACEが最先端のパフォーマンスを達成し、配布外のシナリオに挑戦する既存のTTAメソッドと比較して、優れた堅牢性と一般化を提供することを示している。
関連論文リスト
- Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Mitigating Cache Noise in Test-Time Adaptation for Large Vision-Language Models [13.157596316463621]
下流タスクにおける分散シフトに起因する性能劣化に対する解決策として,視覚言語モデルのテスト時適応(TTA)が注目されている。
我々は、包括的で信頼性の高いキャッシュ機構を導入し、キャッシュ、残留、ガウス(CRG)と呼ばれる新しいゼロショットTTA手法を提案する。
13のベンチマーク実験の結果、CRGは最先端のTTA法よりも優れており、例外的な堅牢性と適応性を示している。
論文 参考訳(メタデータ) (2025-03-24T04:32:35Z) - PrefixKV: Adaptive Prefix KV Cache is What Vision Instruction-Following Models Need for Efficient Generation [68.71450519846081]
キー値(KV)キャッシュは、長い入力シーケンスと出力シーケンスを必要とするが、特に高い推論コストに寄与する。
ここでは,すべてのレイヤのKVキャッシュサイズを決定するという課題を,最適なグローバルプレフィックス設定を探すタスクに再編成するPrefixKVを提案する。
本手法は他の手法と比較して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-04T15:48:59Z) - Digital Twin-Assisted Data-Driven Optimization for Reliable Edge Caching in Wireless Networks [60.54852710216738]
我々はD-RECと呼ばれる新しいデジタルツインアシスト最適化フレームワークを導入し、次世代無線ネットワークにおける信頼性の高いキャッシュを実現する。
信頼性モジュールを制約付き決定プロセスに組み込むことで、D-RECは、有利な制約に従うために、アクション、報酬、状態を適応的に調整することができる。
論文 参考訳(メタデータ) (2024-06-29T02:40:28Z) - A Conditioned Unsupervised Regression Framework Attuned to the Dynamic Nature of Data Streams [0.0]
本稿では,制限付きラベル付きデータを用いたストリーミング環境の最適戦略を提案し,教師なし回帰のための適応手法を提案する。
提案手法は,初期ラベルのスパースセットを活用し,革新的なドリフト検出機構を導入する。
適応性を高めるために,Adaptive WINdowingアルゴリズムとRoot Mean Square Error (RMSE)に基づく誤り一般化アルゴリズムを統合する。
論文 参考訳(メタデータ) (2023-12-12T19:23:54Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。