論文の概要: Frustratingly Easy Test-Time Adaptation of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.18330v2
- Date: Sat, 02 Nov 2024 15:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:34.643338
- Title: Frustratingly Easy Test-Time Adaptation of Vision-Language Models
- Title(参考訳): 視覚言語モデルのフラストレーションと簡易なテスト時間適応
- Authors: Matteo Farina, Gianni Franchi, Giovanni Iacca, Massimiliano Mancini, Elisa Ricci,
- Abstract要約: エピソードテスト時間適応(TTA)戦略はビジョン・ランゲージ・モデルに適応するための強力な手法として登場した。
本研究では、驚くほど強力なTTA手法が休眠状態にあり、内部に隠されていることを明らかにする。
このアプローチをZERO (TTA with "ゼロ" temperature)と呼びます。
文献で確立された実験的プロトコルに従って、我々のアプローチを徹底的に評価し、ZEROがw.r.t.をはるかに上回っているか、比較していることを示す。
その単純さと比較的無視可能な計算のおかげで、ZEROはこの分野での今後の研究の強力なベースラインとして機能することができる。
- 参考スコア(独自算出の注目度): 28.90804096609065
- License:
- Abstract: Vision-Language Models seamlessly discriminate among arbitrary semantic categories, yet they still suffer from poor generalization when presented with challenging examples. For this reason, Episodic Test-Time Adaptation (TTA) strategies have recently emerged as powerful techniques to adapt VLMs in the presence of a single unlabeled image. The recent literature on TTA is dominated by the paradigm of prompt tuning by Marginal Entropy Minimization, which, relying on online backpropagation, inevitably slows down inference while increasing memory. In this work, we theoretically investigate the properties of this approach and unveil that a surprisingly strong TTA method lies dormant and hidden within it. We term this approach ZERO (TTA with "zero" temperature), whose design is both incredibly effective and frustratingly simple: augment N times, predict, retain the most confident predictions, and marginalize after setting the Softmax temperature to zero. Remarkably, ZERO requires a single batched forward pass through the vision encoder only and no backward passes. We thoroughly evaluate our approach following the experimental protocol established in the literature and show that ZERO largely surpasses or compares favorably w.r.t. the state-of-the-art while being almost 10x faster and 13x more memory-friendly than standard Test-Time Prompt Tuning. Thanks to its simplicity and comparatively negligible computation, ZERO can serve as a strong baseline for future work in this field. The code is available at https://github.com/FarinaMatteo/zero.
- Abstract(参考訳): 視覚言語モデルは任意の意味圏をシームレスに区別するが、難しい例を提示しても一般化が不十分である。
このため, エピソードテスト時間適応(TTA)戦略は, 単一の未ラベル画像の存在下でVLMを適応させる強力な手法として最近登場した。
TTAに関する最近の文献は、オンラインのバックプロパゲーションに依存するMarginal Entropy Minimizationによる即時チューニングのパラダイムに支配されている。
本研究では,本手法の特性を理論的に検討し,驚くほど強いTTA法が休眠状態にあり,その中に隠れていることを明らかにする。
我々は、このアプローチをZERO (TTA with "ゼロ" temperature) と呼び、その設計は信じられないほど効果的でフラストレーションに富んでいる。
注目すべきは、ZEROは視覚エンコーダを経由する単一のバッチフォワードパスを必要とし、後方パスは不要である。
文献で確立された実験的なプロトコルに従って、我々のアプローチを徹底的に評価し、ZEROが従来のテストタイム・プロンプト・チューニングの約10倍高速で13倍メモリフレンドリーでありながら、最先端技術よりも好意的に優れているか、あるいは比較していることを示す。
その単純さと比較的無視可能な計算のおかげで、ZEROはこの分野での今後の研究の強力なベースラインとして機能することができる。
コードはhttps://github.com/FarinaMatteo/zero.comで公開されている。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - COME: Test-time adaption by Conservatively Minimizing Entropy [45.689829178140634]
保守的に最小化されるエントロピー (COME) は従来のエントロピー (EM) の代替品である
COMEはモデル予測よりもディリクレ事前分布を特徴付けることによって、不確実性を明示的にモデル化する。
我々はCOMEが一般的なベンチマークで最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-12T09:20:06Z) - Boosting Vision-Language Models for Histopathology Classification: Predict all at once [11.644118356081531]
病理組織学における視覚言語モデルへのトランスダクティブアプローチを提案する。
私たちのアプローチは非常に効率的で、ほんの数秒で105ドルのパッチを処理します。
論文 参考訳(メタデータ) (2024-09-03T13:24:12Z) - The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。
ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文 参考訳(メタデータ) (2024-01-23T01:25:00Z) - More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory [12.689249854199982]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。
次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文 参考訳(メタデータ) (2023-11-24T18:27:41Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - Last Switch Dependent Bandits with Monotone Payoff Functions [8.860629791560198]
我々は、LSDバンディット計画の近似性、すなわち、最適なアーム推進戦略を演算する(NP-hard)問題を理解するための一歩を踏み出した。
特に、この問題に対する最初の効率的な定数近似アルゴリズムを設計し、自然単調性仮定の下では、その近似が最先端にほぼ一致することを示す。
われわれは,新しい高次元緩和法や仮想状態の進化を反映する技術など,このような問題に対する新たなツールと洞察を開発する。
論文 参考訳(メタデータ) (2023-06-01T04:38:32Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - Deep Continuous Prompt for Contrastive Learning of Sentence Embeddings [8.70715711885114]
本稿では,言語モデル全体を凍結し,プレフィックスの深い連続的なプロンプトのみを最適化する新しい手法を提案する。
元の言語モデルの約0.1%のパラメータをチューニングするだけでなく、手作りのプロンプトを検索する面倒な計算を避ける。
提案したDCPCSEは最先端のSimCSEよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-03-14T06:07:44Z) - CIL: Contrastive Instance Learning Framework for Distantly Supervised
Relation Extraction [52.94486705393062]
我々は、典型的なマルチインスタンス学習(MIL)フレームワークを超えて、新しいコントラッシブ・インスタンス学習(CIL)フレームワークを提案する。
具体的には、初期MILをリレーショナルトリプルエンコーダと各インスタンスに対する負のペアに対する制約正のペアとみなす。
提案手法の有効性を実験的に検証し, 提案手法をNYT10, GDS, KBPで比較検討した。
論文 参考訳(メタデータ) (2021-06-21T04:51:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。