論文の概要: BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping
- arxiv url: http://arxiv.org/abs/2410.15430v2
- Date: Thu, 24 Oct 2024 06:41:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:52:21.929463
- Title: BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping
- Title(参考訳): BoostAdapter: 地域ブートストラップによるビジョンランゲージテスト時間適応の改善
- Authors: Taolin Zhang, Jinpeng Wang, Hang Guo, Tao Dai, Bin Chen, Shu-Tao Xia,
- Abstract要約: 本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
- 参考スコア(独自算出の注目度): 64.8477128397529
- License:
- Abstract: Adaptation of pretrained vision-language models such as CLIP to various downstream tasks have raised great interest in recent researches. Previous works have proposed a variety of test-time adaptation (TTA) methods to achieve strong generalization without any knowledge of the target domain. However, existing training-required TTA approaches like TPT necessitate entropy minimization that involves large computational overhead, while training-free methods like TDA overlook the potential for information mining from the test samples themselves. In this paper, we break down the design of existing popular training-required and training-free TTA methods and bridge the gap between them within our framework. Specifically, we maintain a light-weight key-value memory for feature retrieval from instance-agnostic historical samples and instance-aware boosting samples. The historical samples are filtered from the testing data stream and serve to extract useful information from the target distribution, while the boosting samples are drawn from regional bootstrapping and capture the knowledge of the test sample itself. We theoretically justify the rationality behind our method and empirically verify its effectiveness on both the out-of-distribution and the cross-domain datasets, showcasing its applicability in real-world situations.
- Abstract(参考訳): CLIPのような事前訓練された視覚言語モデルの様々な下流タスクへの適応は、近年の研究に大きな関心を集めている。
従来の研究では、ターゲット領域の知識を必要とせず、強力な一般化を実現するための様々なテスト時間適応(TTA)手法が提案されている。
しかし、TPTのような既存のトレーニング要求のTTAアプローチでは、大きな計算オーバーヘッドを伴うエントロピー最小化が必要であり、一方TDAのようなトレーニング不要な方法は、テストサンプル自体からの情報マイニングの可能性を見落としている。
本稿では,既存のトレーニング要求およびトレーニング不要なTTA手法の設計を分解し,フレームワーク間のギャップを埋める。
具体的には、インスタンス非依存の履歴サンプルとインスタンス対応のブースティングサンプルから特徴を検索するための軽量なキー値メモリを保守する。
履歴サンプルは、テストデータストリームからフィルタリングされ、対象の分布から有用な情報を抽出するのに対して、ブースティングサンプルは、地域ブートストラップから引き出され、テストサンプル自体の知識をキャプチャする。
提案手法の背景にある合理性を理論的に正当化し,実際の状況における適用性を示すために,分布外およびクロスドメインデータセットの有効性を実証的に検証する。
関連論文リスト
- DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。
単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。
Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。
本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。
本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文 参考訳(メタデータ) (2024-07-26T17:51:58Z) - Data Adaptive Traceback for Vision-Language Foundation Models in Image Classification [34.37262622415682]
我々はData Adaptive Tracebackと呼ばれる新しい適応フレームワークを提案する。
具体的には、ゼロショット法を用いて、事前学習データの最もダウンストリームなタスク関連サブセットを抽出する。
我々は、擬似ラベルに基づく半教師付き手法を採用し、事前学習画像の再利用と、半教師付き学習における確証バイアス問題に対処するための視覚言語コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:01:58Z) - Learning to Adapt to Online Streams with Distribution Shifts [22.155844301575883]
テスト時間適応(TTA)は、推論中にラベルのないテストデータを活用することにより、トレーニングセットとテストセットの間の分散ギャップを低減する手法である。
この作業では、TTAをより実践的なシナリオに拡張し、テストデータは、時間とともに分散の変化を経験するオンラインストリームの形式で提供される。
本稿では,メタトレーニング中にネットワークに分散シフトするオンラインストリームに適応するように教えるメタラーニング手法を提案する。その結果,トレーニングされたモデルはバッチサイズ制限にかかわらず,テスト中の分散シフトに連続的に適応することができる。
論文 参考訳(メタデータ) (2023-03-02T23:36:10Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。