論文の概要: Ultra-Light Test-Time Adaptation for Vision--Language Models
- arxiv url: http://arxiv.org/abs/2511.09101v1
- Date: Thu, 13 Nov 2025 01:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.41075
- Title: Ultra-Light Test-Time Adaptation for Vision--Language Models
- Title(参考訳): 視覚に対する超軽量テスト時間適応-言語モデル-
- Authors: Byunghyun Kim,
- Abstract要約: CLIPのような視覚言語モデル(VLM)は、画像埋め込みとテキスト由来のクラスプロトタイプを比較することで、強力なゼロショット認識を実現する。
ドメインシフトでは、特徴の漂流、クラスプライアミスマッチ、深刻な誤診に悩まされる。
バックボーンを凍結し,ロジットレベルのパラメータのみを適応させる,完全トレーニングフリーでバックプロップフリーなフレームワークであるUltra-Light Test-Time Adaptation (UL-TTA)を提案する。
- 参考スコア(独自算出の注目度): 0.6816905600359814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) such as CLIP achieve strong zero-shot recognition by comparing image embeddings to text-derived class prototypes. However, under domain shift, they suffer from feature drift, class-prior mismatch, and severe miscalibration. Existing test-time adaptation (TTA) methods often require backpropagation through large backbones, covariance estimation, or heavy memory/state, which is problematic for streaming and edge scenarios. We propose Ultra-Light Test-Time Adaptation (UL-TTA), a fully training-free and backprop-free framework that freezes the backbone and adapts only logit-level parameters: class prototypes, class priors, and temperature. UL-TTA performs an online EM-style procedure with (i) selective sample filtering to use only confident predictions, (ii) closed-form Bayesian updates for prototypes and priors anchored by text and Dirichlet priors, (iii) decoupled temperatures for prediction vs. calibration, and (iv) lightweight guards (norm clipping, prior KL constraints, smoothed temperature) to prevent drift in long streams. Across large-scale cross-domain and OOD benchmarks (PACS, Office-Home, DomainNet, Terra Incognita, ImageNet-R/A/V2/Sketch; ~726K test samples) and strong TTA baselines including Tent, T3A, CoTTA, SAR, Tip-Adapter, and FreeTTA, UL-TTA consistently improves top-1 accuracy (e.g., +4.7 points over zero-shot CLIP on average) while reducing ECE by 20-30%, with less than 8% latency overhead. Long-stream experiments up to 200K samples show no collapse. Our results demonstrate that logit-level Bayesian adaptation is sufficient to obtain state-of-the-art accuracy-calibration trade-offs for VLMs under domain shift, without updating any backbone parameters.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、画像埋め込みとテキスト由来のクラスプロトタイプを比較することで、強力なゼロショット認識を実現する。
しかし、ドメインシフトの下では、特徴の漂流、クラスプライアミスマッチ、重度の誤診に悩まされる。
既存のテスト時間適応(TTA)手法では、大きなバックボーン、共分散推定、あるいは重いメモリ/状態によるバックプロパゲーションが要求される。
バックボーンを凍結し,ロジトレベルのパラメータ(クラスプロトタイプ,クラス先行,温度)のみを適応する,完全トレーニングフリーでバックプロップフリーなフレームワークであるUltra-Light Test-Time Adaptation (UL-TTA)を提案する。
UL-TTAはオンラインEMスタイルの手順を実行する
一 確実な予測のみを使用するための選択的サンプルフィルタリング
(ii)プロトタイプとプリエントをテキストとディリクレで固定したクローズドフォームのベイズ更新。
三 予知対校正の解離温度及び
(4)長流の漂流を防止する軽量ガード(ノームクリップ、以前のKL制約、滑らかな温度)。
大規模なクロスドメインとOODベンチマーク(PACS、Office-Home、DomainNet、Terra Incognita、ImageNet-R/A/V2/Sketch、~726Kテストサンプル)とTent、T3A、CoTTA、SAR、Tip-Adapter、FreeTTAを含む強力なTTAベースラインにわたって、UL-TTAは、トップ1の精度(平均でゼロショットCLIPよりも4.7ポイント)を一貫して改善し、ECEを20~30%削減し、遅延オーバーヘッドは8%以下である。
200Kサンプルまでの長ストリーム実験では、崩壊は見られなかった。
この結果から,ロジトレベルのベイズ適応は,背骨パラメータを更新することなく,領域シフト下でのVLMの高精度校正トレードオフを得るのに十分であることが示された。
関連論文リスト
- Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - Adapt in the Wild: Test-Time Entropy Minimization with Sharpness and Feature Regularization [85.50560211492898]
テスト時適応(TTA)は、テストデータが分散シフトが混在している場合、モデルの性能を改善または損なう可能性がある。
これはしばしば、既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。
両面からTTAを安定化させるため,SARと呼ばれる鋭く信頼性の高いエントロピー最小化手法を提案する。
論文 参考訳(メタデータ) (2025-09-05T10:03:00Z) - BayesTTA: Continual-Temporal Test-Time Adaptation for Vision-Language Models via Gaussian Discriminant Analysis [41.09181390655176]
CLIPのような視覚言語モデル(VLM)は、強いゼロショット認識を実現するが、実世界のシナリオに共通する時空間的な分散シフトの下で大幅に劣化する。
テスト分布が時間とともに徐々に変化するCT-TTA(textitContinal-Temporal Test-Time Adaptation)として、この実践的問題を定式化する。
我々は、時間的に一貫した予測を実行し、視覚表現を動的に調整する、ベイズ適応フレームワークであるtextitBayesTTAを提案する。
論文 参考訳(メタデータ) (2025-07-11T14:02:54Z) - Test-time Loss Landscape Adaptation for Zero-Shot Generalization in Vision-Language Models [3.1099372412393524]
本稿では,ロスランドスケープの観点から,既存の手法におけるバックプロパゲーションの不要な性質を明らかにする。
テストタイムロスランドスケープ適応(TLLA)と呼ばれるシンプルだが効果的なフレームワークを提案する。
即時チューニングの段階では、最小限のトレーニングを識別するために、シャープネス・アウェア・プロンプト・チューニング(SAPT)法が導入された。
テスト段階では、平らなミニマのアライメントを確保するためにシャープネスに基づくテストサンプル選択(STSS)アプローチが使用される。
論文 参考訳(メタデータ) (2025-01-31T03:10:48Z) - Enhancing Test Time Adaptation with Few-shot Guidance [62.49199492255226]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。
TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。
本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文 参考訳(メタデータ) (2024-09-02T15:50:48Z) - Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language Models [4.655740975414312]
本稿では,大規模視覚言語モデル(VLM)のゼロショット一般化のための高速チューニングの代替として,テスト時間低ランク適応(TTL)を提案する。
TTLは、予測信頼度を最大化することにより、変圧器の注意重みを更新するテスト時間効率適応手法を提供する。
論文 参考訳(メタデータ) (2024-07-22T17:59:19Z) - Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [65.21599711087538]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - REALM: Robust Entropy Adaptive Loss Minimization for Improved
Single-Sample Test-Time Adaptation [5.749155230209001]
フルテスト時間適応(F-TTA)は、列車とテストデータの分散シフトによる性能損失を軽減することができる。
本稿では,F-TTAの雑音に対する堅牢性向上のための一般的な枠組みについて述べる。
論文 参考訳(メタデータ) (2023-09-07T18:44:58Z) - Tent: Fully Test-time Adaptation by Entropy Minimization [77.85911673550851]
モデルは、テスト中に新しいデータや異なるデータに一般化するように適応する必要があります。
この完全なテスト時間適応の設定では、モデルはテストデータとそれ自身のパラメータしか持たない。
実験エントロピー最小化(tent): 予測のエントロピーによって測定された信頼度に対するモデルを最適化する。
論文 参考訳(メタデータ) (2020-06-18T17:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。