論文の概要: ETTA: Efficient Test-Time Adaptation for Vision-Language Models through Dynamic Embedding Updates
- arxiv url: http://arxiv.org/abs/2508.05898v1
- Date: Thu, 07 Aug 2025 23:11:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.027196
- Title: ETTA: Efficient Test-Time Adaptation for Vision-Language Models through Dynamic Embedding Updates
- Title(参考訳): ETTA:動的埋め込み更新による視覚言語モデルの効率的なテスト時間適応
- Authors: Hamidreza Dastmalchi, Aijun An, Ali cheraghian,
- Abstract要約: Test-Time Adaptationは、新しいドメインでラベル付けされていないテストデータに視覚言語モデルを適用する。
現在のキャッシュベースのTTAモデルは、限られた高信頼のサンプルのみを格納する。
入ってくるすべてのテストサンプルを統合するRecursive Updatingモジュールを提案する。
- 参考スコア(独自算出の注目度): 5.84817561920117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained vision-language models (VLMs) like CLIP show strong zero-shot performance but struggle with generalization under distribution shifts. Test-Time Adaptation (TTA) addresses this by adapting VLMs to unlabeled test data in new domains. While some TTA methods rely on prompt-tuning, training-free cache-based approaches are preferred for efficiency. However, current cache-based TTA models store only a limited set of high-confidence samples, restricting the decision boundary to these samples and ignoring the influence of other incoming test data. To address this, we propose Efficient Test-Time Adaptation (ETTA), introducing a Recursive Updating module that integrates all incoming test samples, progressively refining the decision boundary. This strategy mimics an unbounded cache, dynamically updating contextual embeddings for improved accuracy with minimal memory and computational overhead. ETTA also includes an Adaptive Ensemble module to reduce prompt dependency in image-to-text scores by dynamically selecting optimal prompts for each class. Furthermore, ETTA adaptively combines scores from both modules based on confidence levels, leveraging their complementary strengths. Extensive experiments on two benchmarks confirm that ETTA surpasses the state-of-the-art TTA models in computational complexity and accuracy, setting a new standard for effective, efficient test-time adaptation. The code has been released at https://github.com/hamidreza-dastmalchi/ETTA.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデル(VLM)は、ゼロショット性能が強いが、分散シフト下での一般化に苦慮している。
テスト時間適応(TTA)は、新しいドメインでラベル付けされていないテストデータにVLMを適用することで、この問題に対処する。
いくつかのTTAメソッドはプロンプトチューニングに依存しているが、トレーニング不要のキャッシュベースのアプローチの方が効率的である。
しかしながら、現在のキャッシュベースのTTAモデルは、高信頼度サンプルの限られたセットのみを格納し、これらのサンプルに対する決定境界を制限し、他の入ってくるテストデータの影響を無視している。
そこで本研究では,すべてのテストサンプルを統合する再帰的更新モジュールを導入し,段階的に決定境界を精査するETTAを提案する。
この戦略は無制限のキャッシュを模倣し、メモリと計算オーバーヘッドを最小限に抑えて精度を向上させるためにコンテキスト埋め込みを動的に更新する。
ETTAにはAdaptive Ensembleモジュールも含まれており、各クラスに対して最適なプロンプトを動的に選択することで、画像からテキストまでのスコアへのプロンプト依存を減らすことができる。
さらに、ETTAは両モジュールのスコアを信頼度に基づいて適応的に組み合わせ、相補的な強みを活用する。
2つのベンチマークの大規模な実験により、ETTAは計算複雑性と精度において最先端のTTAモデルを上回ることが確認され、効率的なテスト時間適応のための新しい標準が設定された。
コードはhttps://github.com/hamidreza-dastmalchi/ETTAで公開されている。
関連論文リスト
- Test-Time Adaptation with Binary Feedback [50.20923012663613]
BiTTAは、不確実なサンプルに対するバイナリフィードバック誘導適応と、確実な予測に対する合意に基づく自己適応のバランスをとる、新しいデュアルパス最適化フレームワークである。
実験の結果、BiTTAは最先端のベースラインよりも13.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-05-24T05:24:10Z) - SCAP: Transductive Test-Time Adaptation via Supportive Clique-based Attribute Prompting [39.00953148964911]
ビジョン言語モデル(VLM)は、データ分散の変化に起因するドメインシフトに適応する際の課題に直面する。
テスト時間適応(TTA)は、このような条件下でのVLM性能を高めるための有望なアプローチとして現れている。
本稿では,テストバッチ間の微粒な属性プロンプトを生成することで適応性を高めるために,SCAP(Supportive Clique-based Attribute Prompting)を提案する。
論文 参考訳(メタデータ) (2025-03-17T06:50:57Z) - Efficient Open Set Single Image Test Time Adaptation of Vision Language Models [15.621092104244003]
動的で現実世界の環境にモデルを適応させることは、ディープラーニングにおける重要な課題である。
動的に更新された機能バンクを利用して信頼性の高いテストサンプルを識別する新しいフレームワークであるROSITAを提案する。
このアプローチは、未知のサンプルを拒絶しながら、既知のクラスに対するドメインシフトにモデルを効果的に適用する。
論文 参考訳(メタデータ) (2024-06-01T16:21:42Z) - CLIPArTT: Adaptation of CLIP to New Domains at Test Time [19.0284321951354]
CLIP Adaptation duRing Test-Time(CLIPArTT)を導入する。これは、事前学習された視覚言語モデル(VLM)に対する完全なテスト時間適応(TTA)アプローチである。
提案手法では,複数の予測クラスを1つの新しいテキストプロンプトに集約し,入力を再分類するためにemphpseudoラベルとして使用する,ユニークで最小限の侵襲的なテキストプロンプトチューニング処理を採用している。
以上の結果から,新たなトランスフォーメーションやトレーニング可能なモジュールを必要とせずに,CLIPArTTは非破損データセット間で動的にパフォーマンスを向上することがわかった。
論文 参考訳(メタデータ) (2024-05-01T07:24:30Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Few Clicks Suffice: Active Test-Time Adaptation for Semantic
Segmentation [14.112999441288615]
テスト時間適応(TTA)は、未ラベルのテストデータを使用した推論中に事前訓練されたモデルに適応する。
TTAアプローチと教師付きアプローチの間には,依然として大きなパフォーマンスギャップがあります。
本稿では,モデルアダプタとラベルアノテータの2つの部分からなるATASegフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-04T12:16:02Z) - AR-TTA: A Simple Method for Real-World Continual Test-Time Adaptation [1.4530711901349282]
本稿では,自律運転のためのデータセット,すなわちCLAD-CとShiFTを用いたテスト時間適応手法の検証を提案する。
現在のテスト時間適応手法は、ドメインシフトの様々な程度を効果的に扱うのに苦労している。
モデル安定性を高めるために、小さなメモリバッファを組み込むことで、確立された自己学習フレームワークを強化する。
論文 参考訳(メタデータ) (2023-09-18T19:34:23Z) - Robust Continual Test-time Adaptation: Instance-aware BN and
Prediction-balanced Memory [58.72445309519892]
テストデータストリーム以外のデータストリームに対して堅牢な新しいテスト時間適応方式を提案する。
a)分布外サンプルの正規化を修正するIABN(Instance-Aware Batch Normalization)と、(b)クラスバランスのない方法で非i.d.ストリームからのデータストリームをシミュレートするPBRS(Predict- Balanced Reservoir Sampling)である。
論文 参考訳(メタデータ) (2022-08-10T03:05:46Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。