論文の概要: The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.24000v1
- Date: Mon, 30 Jun 2025 16:05:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.145118
- Title: The Illusion of Progress? A Critical Look at Test-Time Adaptation for Vision-Language Models
- Title(参考訳): 進歩の錯覚 : 視覚言語モデルにおけるテスト時間適応の批判的考察
- Authors: Lijun Sheng, Jian Liang, Ran He, Zilei Wang, Tieniu Tan,
- Abstract要約: TTA-VLMは、視覚言語モデル上でのTTA手法を評価するための総合的なベンチマークである。
筆者らのベンチマークでは, 統合的かつ再現可能なフレームワーク内に8つのエピソードTTAと7つのオンラインTTAメソッドを実装した。
我々は、SigLIP(Sigmoid Lossで訓練されたモデル)の評価を拡張し、一般性を評価するためのCoOp、MaPLe、TeCoAなどの訓練時間チューニング手法を含む。
- 参考スコア(独自算出の注目度): 120.42853706967188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time adaptation (TTA) methods have gained significant attention for enhancing the performance of vision-language models (VLMs) such as CLIP during inference, without requiring additional labeled data. However, current TTA researches generally suffer from major limitations such as duplication of baseline results, limited evaluation metrics, inconsistent experimental settings, and insufficient analysis. These problems hinder fair comparisons between TTA methods and obscure their practical strengths and weaknesses. To address these challenges, we introduce TTA-VLM, a comprehensive benchmark for evaluating TTA methods on VLMs. Our benchmark implements 8 episodic TTA and 7 online TTA methods within a unified and reproducible framework, and evaluates them across 15 widely used datasets. Unlike prior studies focused solely on CLIP, we extend the evaluation to SigLIP--a model trained with a Sigmoid loss--and include training-time tuning methods such as CoOp, MaPLe, and TeCoA to assess generality. Beyond classification accuracy, TTA-VLM incorporates various evaluation metrics, including robustness, calibration, out-of-distribution detection, and stability, enabling a more holistic assessment of TTA methods. Through extensive experiments, we find that 1) existing TTA methods produce limited gains compared to the previous pioneering work; 2) current TTA methods exhibit poor collaboration with training-time fine-tuning methods; 3) accuracy gains frequently come at the cost of reduced model trustworthiness. We release TTA-VLM to provide fair comparison and comprehensive evaluation of TTA methods for VLMs, and we hope it encourages the community to develop more reliable and generalizable TTA strategies.
- Abstract(参考訳): テスト時適応(TTA)法は、追加のラベル付きデータを必要とすることなく、推論中にCLIPのような視覚言語モデル(VLM)の性能を向上させるために注目されている。
しかしながら、現在のTTA研究は一般的に、ベースライン結果の重複、限られた評価基準、一貫性のない実験設定、不十分な分析などの大きな制限に悩まされている。
これらの問題は、TTA手法の公正な比較を妨げ、その実用的強度と弱点を曖昧にしている。
これらの課題に対処するために、我々は、VLM上でのTTA手法を評価するための総合的なベンチマークであるTTA-VLMを紹介した。
本ベンチマークでは,8つのエピソードなTTAメソッドと7つのオンラインTTAメソッドを,統一的かつ再現可能なフレームワーク内に実装し,広く使用されている15のデータセットで評価する。
CLIPにのみ焦点をあてた以前の研究とは異なり、SigLIP(Sigmoid lossで訓練されたモデル)に評価を拡張し、CoOp、MaPLe、TeCoAなどの訓練時間チューニング手法を取り入れて一般性を評価する。
分類精度以外にも、TTA-VLMはロバストネス、キャリブレーション、アウト・オブ・ディストリビューション検出、安定性など様々な評価指標を取り入れており、TTA法のより包括的な評価を可能にしている。
広範な実験を通して、私たちはそれを発見しました。
1) 既存のTTA手法は,前回の先駆的作業と比較して,利得が限られている。
2) 現在のTTA法は,訓練時の微調整方法との連携が不十分である。
3) 精度の向上はモデルの信頼性を低下させるコストが伴うことが多い。
我々は,VLMのTTA手法を公平に比較し,包括的に評価するためにTTA-VLMをリリースした。
関連論文リスト
- Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - From Question to Exploration: Test-Time Adaptation in Semantic Segmentation? [21.27237423511349]
テスト時間適応(TTA)は、トレーニングデータに基づいてトレーニングされたモデルを、潜在的な分散シフトを伴うテストデータに適用することを目的としている。
セマンティックセグメンテーションにおける既存の古典的TTA戦略の適用性について検討する。
論文 参考訳(メタデータ) (2023-10-09T01:59:49Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - Benchmarking Test-Time Adaptation against Distribution Shifts in Image
Classification [77.0114672086012]
テスト時間適応(TTA)は、予測時にのみラベルのないサンプルを活用することにより、モデルの一般化性能を向上させる技術である。
本稿では,広く使用されている5つの画像分類データセット上で,13のTTA手法とその変種を体系的に評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T16:59:53Z) - Test-Time Adaptation with Perturbation Consistency Learning [32.58879780726279]
そこで本研究では, 分布変化のあるサンプルに対して, 安定な予測を行うための簡易なテスト時間適応手法を提案する。
提案手法は,強力なPLMバックボーンよりも推論時間が少なく,高い,あるいは同等の性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-25T12:29:22Z) - Evaluation of Test-Time Adaptation Under Computational Time Constraints [80.40939405129102]
テスト時間適応(TTA)メソッドは、テスト時にラベルのないデータを活用して、分散シフトに適応する。
現在の評価プロトコルは、この余分なコストの影響を見落とし、実際の適用性に影響を与える。
本稿では,TTA手法のより現実的な評価プロトコルを提案し,一定の速度のデータストリームからデータをオンライン形式で受信する。
論文 参考訳(メタデータ) (2023-04-10T18:01:47Z) - Towards Stable Test-Time Adaptation in Dynamic Wild World [60.98073673220025]
テスト時間適応(TTA)は、与えられたモデルをテストサンプルに適応させることで、トレーニングとテストデータの分散シフトに取り組むのに有効であることが示されている。
TTAのオンラインモデル更新は不安定であり、これはしばしば既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。
論文 参考訳(メタデータ) (2023-02-24T02:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。