論文の概要: A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-time Adaptation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.14977v1
- Date: Thu, 23 May 2024 18:27:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 19:27:22.002225
- Title: A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-time Adaptation for Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける損失機会:視覚言語モデルに対するオンラインテスト時間適応の比較研究
- Authors: Mario Döbler, Robert A. Marsden, Tobias Raichle, Bin Yang,
- Abstract要約: この研究は、様々な現実のシナリオにおける視覚言語モデルの適応性と堅牢性を高めることを目的としている。
この調査には、手作りのプロンプト、即興のアンサンブル、即発的な学習技術など、迅速なエンジニアリング戦略の分析が含まれている。
本研究では,テキスト空間のみのアンサンブルに比べて平均性能を大幅に向上させる視覚テキスト空間アンサンブルを提案する。
- 参考スコア(独自算出の注目度): 3.0495235326282186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of deep learning, maintaining model robustness against distribution shifts is critical. This paper investigates test-time adaptation strategies for vision-language models, with a specific focus on CLIP and its variants. Through a systematic exploration of prompt-based techniques and existing test-time adaptation methods, the study aims to enhance the adaptability and robustness of vision-language models in diverse real-world scenarios. The investigation includes an analysis of prompt engineering strategies, such as hand-crafted prompts, prompt ensembles, and prompt learning techniques. We introduce a vision-text-space ensemble that significantly boosts the average performance compared to a text-space-only ensemble. Additionally, our comparative study delves into leveraging existing test-time adaptation methods originally designed for image classification tasks. Experimental evaluations conducted across various datasets and model architectures demonstrate the efficacy of different adaptation strategies. We further give insights into the importance of updating the vision encoder and whether it is beneficial to update the text encoder. Code is available at https://github.com/mariodoebler/test-time-adaptation
- Abstract(参考訳): ディープラーニングの領域では、分散シフトに対するモデル堅牢性を維持することが重要です。
本稿では,CLIPとその変種に着目した視覚言語モデルに対するテスト時適応戦略について検討する。
本研究は,プロンプトベース手法と既存のテスト時間適応手法の体系的な探索を通じて,様々な実世界のシナリオにおける視覚言語モデルの適応性と堅牢性を高めることを目的とする。
この調査には、手作りのプロンプト、即興のアンサンブル、即発的な学習技術など、迅速なエンジニアリング戦略の分析が含まれている。
本研究では,テキスト空間のみのアンサンブルに比べて平均性能を大幅に向上させる視覚テキスト空間アンサンブルを提案する。
さらに,画像分類タスク用に設計された既存のテスト時間適応手法を活用することを目的とした比較研究を行った。
各種データセットおよびモデルアーキテクチャにまたがる実験的評価は、異なる適応戦略の有効性を実証する。
さらに、ビジョンエンコーダの更新の重要性と、テキストエンコーダの更新が有益かどうかについて考察する。
コードはhttps://github.com/mariodoebler/test-time-adaptationで入手できる。
関連論文リスト
- BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。
BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。
我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文 参考訳(メタデータ) (2024-06-17T08:16:24Z) - Effectiveness of Vision Language Models for Open-world Single Image Test Time Adaptation [15.621092104244003]
単体テスト時間適応の現実的な課題に対処する新しい枠組みを提案する。
私たちは、CLIPのような大規模ビジョン言語モデルを活用して、画像毎のリアルタイム適応を可能にします。
提案するフレームワークROSITAはこれらのコンポーネントを組み合わせて、ビジョン言語モデルのオンライン適応を可能にする。
論文 参考訳(メタデータ) (2024-06-01T16:21:42Z) - Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models [29.75562085178755]
本研究は,検索強化適応におけるキーコンポーネントの役割を理解するための体系的な研究である。
単モーダルおよびクロスモーダル検索に関する新たな知見を明らかにし,ロジットアンサンブルの有効適応における重要な役割を強調した。
論文 参考訳(メタデータ) (2024-05-02T16:59:05Z) - Few Shot Class Incremental Learning using Vision-Language models [24.930246674021525]
本研究では,言語正規化器と部分空間正規化器を利用する,革新的な数ショットクラスインクリメンタルラーニング(FSCIL)フレームワークを提案する。
提案するフレームワークは,限られたデータを持つ新しいクラスをモデルに導入するだけでなく,ベースクラスのパフォーマンスの維持も保証する。
論文 参考訳(メタデータ) (2024-05-02T06:52:49Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - LaViP:Language-Grounded Visual Prompts [27.57227844809257]
下流タスクに視覚言語モデルの視覚エンコーダを適応させるための言語基底型視覚プロンプト手法を提案する。
言語統合に乗じて、視覚エンコーダの入力を調整するためのパラメータ効率の戦略を考案する。
我々のアルゴリズムはブラックボックスのシナリオでも動作可能であり、モデルのパラメータへのアクセスが制約された状況において適応性を示す。
論文 参考訳(メタデータ) (2023-12-18T05:50:10Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Class Incremental Learning with Pre-trained Vision-Language Models [59.15538370859431]
本稿では、事前学習された視覚言語モデル(例えば、CLIP)を利用して、さらなる適応を可能にするアプローチを提案する。
いくつかの従来のベンチマークの実験は、常に現在の最先端よりも顕著な改善のマージンを示している。
論文 参考訳(メタデータ) (2023-10-31T10:45:03Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。