論文の概要: A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-Time Adaptation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.14977v2
- Date: Mon, 9 Sep 2024 17:33:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 02:21:54.482919
- Title: A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-Time Adaptation for Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける損失機会:視覚言語モデルに対するオンラインテスト時間適応の比較研究
- Authors: Mario Döbler, Robert A. Marsden, Tobias Raichle, Bin Yang,
- Abstract要約: ディープラーニングでは、分散シフトに対する堅牢性を維持することが重要です。
この研究は、視覚言語基礎モデルをテスト時に適用するための幅広い可能性を探究する。
- 参考スコア(独自算出の注目度): 3.0495235326282186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In deep learning, maintaining model robustness against distribution shifts is critical. This work explores a broad range of possibilities to adapt vision-language foundation models at test-time, with a particular emphasis on CLIP and its variants. The study systematically examines prompt-based techniques and existing test-time adaptation methods, aiming to improve the robustness under distribution shift in diverse real-world scenarios. Specifically, the investigation covers various prompt engineering strategies, including handcrafted prompts, prompt ensembles, and prompt learning techniques. Additionally, we introduce a vision-text-space ensemble that substantially enhances average performance compared to text-space-only ensembles. Since online test-time adaptation has shown to be effective to mitigate performance drops under distribution shift, the study extends its scope to evaluate the effectiveness of existing test-time adaptation methods that were originally designed for vision-only classification models. Through extensive experimental evaluations conducted across multiple datasets and diverse model architectures, the research demonstrates the effectiveness of these adaptation strategies. Code is available at: https://github.com/mariodoebler/test-time-adaptation
- Abstract(参考訳): ディープラーニングでは、分散シフトに対するモデルの堅牢性を維持することが重要です。
この研究は、CLIPとその変種に特に重点を置いて、ビジョン言語の基礎モデルをテスト時に適用するための幅広い可能性を探究する。
本研究は,多種多様な実世界のシナリオにおける分布シフト時のロバスト性向上を目的として,プロンプトベースの手法と既存のテスト時間適応手法を体系的に検討した。
具体的には、手作りのプロンプト、即興のアンサンブル、素早い学習技術など、様々な素早いエンジニアリング戦略をカバーしている。
さらに,テキスト空間のみのアンサンブルに比べて平均性能を大幅に向上させる視覚テキスト空間アンサンブルを導入する。
オンラインテストタイム適応は,分散シフトによる性能低下を緩和するために有効であることが示されているので,本来視覚のみの分類モデルのために設計された既存のテストタイム適応手法の有効性を評価するために,その範囲を広げた。
複数のデータセットと多種多様なモデルアーキテクチャにまたがる広範な実験的評価を通じて、本研究はこれらの適応戦略の有効性を実証する。
https://github.com/mariodoebler/test-time-adaptation
関連論文リスト
- Beyond Model Adaptation at Test Time: A Survey [43.03129492126422]
機械学習アルゴリズムは、テストディストリビューションのサンプルがトレーニング中に観察されるものから逸脱し始めたときに苦労する。
テスト時間適応は、ソースデータのみに基づくトレーニングモデルによるドメイン適応とドメイン一般化の利点を組み合わせる。
テスト時間適応に関する総合的かつ体系的なレビューを行い、400以上の最近の論文を取り上げている。
論文 参考訳(メタデータ) (2024-11-06T06:13:57Z) - BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。
本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文 参考訳(メタデータ) (2024-07-01T20:25:20Z) - BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。
BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。
我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文 参考訳(メタデータ) (2024-06-17T08:16:24Z) - Effectiveness of Vision Language Models for Open-world Single Image Test Time Adaptation [15.621092104244003]
単体テスト時間適応の現実的な課題に対処する新しい枠組みを提案する。
私たちは、CLIPのような大規模ビジョン言語モデルを活用して、画像毎のリアルタイム適応を可能にします。
提案するフレームワークROSITAはこれらのコンポーネントを組み合わせて、ビジョン言語モデルのオンライン適応を可能にする。
論文 参考訳(メタデータ) (2024-06-01T16:21:42Z) - Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models [29.75562085178755]
本研究は,検索強化適応におけるキーコンポーネントの役割を理解するための体系的な研究である。
単モーダルおよびクロスモーダル検索に関する新たな知見を明らかにし,ロジットアンサンブルの有効適応における重要な役割を強調した。
論文 参考訳(メタデータ) (2024-05-02T16:59:05Z) - Test-Time Domain Generalization for Face Anti-Spoofing [60.94384914275116]
Face Anti-Spoofing (FAS) は、顔認識システムをプレゼンテーション攻撃から保護するために重要である。
本稿では,テストデータを活用してモデルの一般化性を高める新しいテスト時間領域一般化フレームワークについて紹介する。
テスト時間スタイル投影 (TTSP) とディバーススタイルシフトシミュレーション (DSSS) によって構成された本手法は, 目に見えないデータを領域空間に効果的に投影する。
論文 参考訳(メタデータ) (2024-03-28T11:50:23Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [143.14128737978342]
新たなパラダイムであるテスト時適応は、事前トレーニングされたモデルをテスト中にラベルのないデータに適用し、予測を行う可能性がある。
このパラダイムの最近の進歩は、推論に先立って自己適応モデルのトレーニングにラベルのないデータを活用するという大きな利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。