論文の概要: A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-time Adaptation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.14977v1
- Date: Thu, 23 May 2024 18:27:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 19:27:22.002225
- Title: A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-time Adaptation for Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける損失機会:視覚言語モデルに対するオンラインテスト時間適応の比較研究
- Authors: Mario Döbler, Robert A. Marsden, Tobias Raichle, Bin Yang,
- Abstract要約: この研究は、様々な現実のシナリオにおける視覚言語モデルの適応性と堅牢性を高めることを目的としている。
この調査には、手作りのプロンプト、即興のアンサンブル、即発的な学習技術など、迅速なエンジニアリング戦略の分析が含まれている。
本研究では,テキスト空間のみのアンサンブルに比べて平均性能を大幅に向上させる視覚テキスト空間アンサンブルを提案する。
- 参考スコア(独自算出の注目度): 3.0495235326282186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of deep learning, maintaining model robustness against distribution shifts is critical. This paper investigates test-time adaptation strategies for vision-language models, with a specific focus on CLIP and its variants. Through a systematic exploration of prompt-based techniques and existing test-time adaptation methods, the study aims to enhance the adaptability and robustness of vision-language models in diverse real-world scenarios. The investigation includes an analysis of prompt engineering strategies, such as hand-crafted prompts, prompt ensembles, and prompt learning techniques. We introduce a vision-text-space ensemble that significantly boosts the average performance compared to a text-space-only ensemble. Additionally, our comparative study delves into leveraging existing test-time adaptation methods originally designed for image classification tasks. Experimental evaluations conducted across various datasets and model architectures demonstrate the efficacy of different adaptation strategies. We further give insights into the importance of updating the vision encoder and whether it is beneficial to update the text encoder. Code is available at https://github.com/mariodoebler/test-time-adaptation
- Abstract(参考訳): ディープラーニングの領域では、分散シフトに対するモデル堅牢性を維持することが重要です。
本稿では,CLIPとその変種に着目した視覚言語モデルに対するテスト時適応戦略について検討する。
本研究は,プロンプトベース手法と既存のテスト時間適応手法の体系的な探索を通じて,様々な実世界のシナリオにおける視覚言語モデルの適応性と堅牢性を高めることを目的とする。
この調査には、手作りのプロンプト、即興のアンサンブル、即発的な学習技術など、迅速なエンジニアリング戦略の分析が含まれている。
本研究では,テキスト空間のみのアンサンブルに比べて平均性能を大幅に向上させる視覚テキスト空間アンサンブルを提案する。
さらに,画像分類タスク用に設計された既存のテスト時間適応手法を活用することを目的とした比較研究を行った。
各種データセットおよびモデルアーキテクチャにまたがる実験的評価は、異なる適応戦略の有効性を実証する。
さらに、ビジョンエンコーダの更新の重要性と、テキストエンコーダの更新が有益かどうかについて考察する。
コードはhttps://github.com/mariodoebler/test-time-adaptationで入手できる。
関連論文リスト
- Beyond Model Adaptation at Test Time: A Survey [43.03129492126422]
機械学習アルゴリズムは、テストディストリビューションのサンプルがトレーニング中に観察されるものから逸脱し始めたときに苦労する。
テスト時間適応は、ソースデータのみに基づくトレーニングモデルによるドメイン適応とドメイン一般化の利点を組み合わせる。
テスト時間適応に関する総合的かつ体系的なレビューを行い、400以上の最近の論文を取り上げている。
論文 参考訳(メタデータ) (2024-11-06T06:13:57Z) - BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - Analyzing Persuasive Strategies in Meme Texts: A Fusion of Language Models with Paraphrase Enrichment [0.23020018305241333]
本稿では,ミームテキストにおける説得手法の階層的マルチラベル検出へのアプローチについて述べる。
本研究の範囲は、革新的なトレーニング技術とデータ強化戦略を通じて、モデルパフォーマンスの向上を含む。
論文 参考訳(メタデータ) (2024-07-01T20:25:20Z) - BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。
BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。
我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文 参考訳(メタデータ) (2024-06-17T08:16:24Z) - Effectiveness of Vision Language Models for Open-world Single Image Test Time Adaptation [15.621092104244003]
単体テスト時間適応の現実的な課題に対処する新しい枠組みを提案する。
私たちは、CLIPのような大規模ビジョン言語モデルを活用して、画像毎のリアルタイム適応を可能にします。
提案するフレームワークROSITAはこれらのコンポーネントを組み合わせて、ビジョン言語モデルのオンライン適応を可能にする。
論文 参考訳(メタデータ) (2024-06-01T16:21:42Z) - Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models [29.75562085178755]
本研究は,検索強化適応におけるキーコンポーネントの役割を理解するための体系的な研究である。
単モーダルおよびクロスモーダル検索に関する新たな知見を明らかにし,ロジットアンサンブルの有効適応における重要な役割を強調した。
論文 参考訳(メタデータ) (2024-05-02T16:59:05Z) - Test-Time Domain Generalization for Face Anti-Spoofing [60.94384914275116]
Face Anti-Spoofing (FAS) は、顔認識システムをプレゼンテーション攻撃から保護するために重要である。
本稿では,テストデータを活用してモデルの一般化性を高める新しいテスト時間領域一般化フレームワークについて紹介する。
テスト時間スタイル投影 (TTSP) とディバーススタイルシフトシミュレーション (DSSS) によって構成された本手法は, 目に見えないデータを領域空間に効果的に投影する。
論文 参考訳(メタデータ) (2024-03-28T11:50:23Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [143.14128737978342]
新たなパラダイムであるテスト時適応は、事前トレーニングされたモデルをテスト中にラベルのないデータに適用し、予測を行う可能性がある。
このパラダイムの最近の進歩は、推論に先立って自己適応モデルのトレーニングにラベルのないデータを活用するという大きな利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。