論文の概要: Test-time Alignment-Enhanced Adapter for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.15735v1
- Date: Sun, 24 Nov 2024 06:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:56.367035
- Title: Test-time Alignment-Enhanced Adapter for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのテスト時間アライメント強化アダプタ
- Authors: Baoshun Tong, Kaiyu Song, Hanjiang Lai,
- Abstract要約: 事前学習型視覚言語モデル(VLM)によるテスト時間適応は、テストフェーズにおける分布シフトの問題に対処するために注目が集まっている。
テスト時間アライメント拡張アダプタ(TAEA)と呼ばれる新しいアプローチを導入し、テストフェーズ中にテキスト機能を調整するために、テストサンプルでアダプタをトレーニングする。
- 参考スコア(独自算出の注目度): 6.549059375031384
- License:
- Abstract: Test-time adaptation with pre-trained vision-language models (VLMs) has attracted increasing attention for tackling the issue of distribution shift during the test phase. While prior methods have shown effectiveness in addressing distribution shift by adjusting classification logits, they are not optimal due to keeping text features unchanged. To address this issue, we introduce a new approach called Test-time Alignment-Enhanced Adapter (TAEA), which trains an adapter with test samples to adjust text features during the test phase. We can enhance the text-to-image alignment prediction by utilizing an adapter to adapt text features. Furthermore, we also propose to adopt the negative cache from TDA as enhancement module, which further improves the performance of TAEA. Our approach outperforms the state-of-the-art TTA method of pre-trained VLMs by an average of 0.75% on the out-of-distribution benchmark and 2.5% on the cross-domain benchmark, with an acceptable training time. Code will be available at https://github.com/BaoshunWq/clip-TAEA.
- Abstract(参考訳): 事前学習型視覚言語モデル(VLM)によるテスト時間適応は、テストフェーズにおける分布シフトの問題に対処するために注目が集まっている。
従来の手法では,分類ロジットの調整による分散シフトに対処する効果が見られたが,テキストの特徴が変化しないため最適ではない。
この問題に対処するため,テスト時間アライメント拡張アダプタ (TAEA) と呼ばれる新しいアプローチを導入する。
我々は、テキスト特徴に適応するアダプタを利用することで、テキスト間のアライメント予測を強化することができる。
さらに,TDAの負のキャッシュを拡張モジュールとして採用し,TAEAの性能を向上させることを提案する。
提案手法は,市販のベンチマークでは平均0.75%,クロスドメインベンチマークでは2.5%,学習時間は許容できる。
コードはhttps://github.com/BaoshunWq/clip-TAEA.comで入手できる。
関連論文リスト
- Label Distribution Shift-Aware Prediction Refinement for Test-Time Adaptation [12.231303059518229]
テスト時間適応(DART)のためのラベル分散シフト予測の改良について紹介する。
DARTは、クラスワイドの混乱パターンに着目して予測を洗練する新しいTTA手法である。
CIFAR-10Cではラベル分布シフトがない場合,CIFAR-10Cでは精度が5-18%向上する。
論文 参考訳(メタデータ) (2024-11-20T05:58:52Z) - Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language Models [4.655740975414312]
本稿では,大規模視覚言語モデル(VLM)のゼロショット一般化のための高速チューニングの代替として,テスト時間低ランク適応(TTL)を提案する。
TTLは、予測信頼度を最大化することにより、変圧器の注意重みを更新するテスト時間効率適応手法を提供する。
論文 参考訳(メタデータ) (2024-07-22T17:59:19Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Efficient Test-Time Adaptation of Vision-Language Models [58.3646257833533]
事前学習された視覚言語モデルによるテスト時間適応は、テスト時間中に分散シフトに取り組むことに注目が集まっている。
我々は、視覚言語モデルによる効率的なテスト時間適応を可能にするトレーニングフリーな動的アダプタであるTDAを設計する。
論文 参考訳(メタデータ) (2024-03-27T06:37:51Z) - What, How, and When Should Object Detectors Update in Continually
Changing Test Domains? [34.13756022890991]
テストデータを推測しながらモデルをオンラインに適応させるテスト時適応アルゴリズムが提案されている。
連続的に変化するテスト領域におけるオブジェクト検出のための新しいオンライン適応手法を提案する。
提案手法は,広く使用されているベンチマークのベースラインを超え,最大4.9%,mAP7.9%の改善を実現している。
論文 参考訳(メタデータ) (2023-12-12T07:13:08Z) - Benchmarking Test-Time Adaptation against Distribution Shifts in Image
Classification [77.0114672086012]
テスト時間適応(TTA)は、予測時にのみラベルのないサンプルを活用することにより、モデルの一般化性能を向上させる技術である。
本稿では,広く使用されている5つの画像分類データセット上で,13のTTA手法とその変種を体系的に評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T16:59:53Z) - TeST: Test-time Self-Training under Distribution Shift [99.68465267994783]
Test-Time Self-Training (TeST)は、あるソースデータとテスト時の新しいデータ分散に基づいてトレーニングされたモデルを入力する技術である。
また,TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2022-09-23T07:47:33Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。