論文の概要: Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2305.18010v1
- Date: Mon, 29 May 2023 11:03:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 15:19:30.085242
- Title: Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるゼロショット一般化のためのクリップ報酬によるテスト時間適応
- Authors: Shuai Zhao, Xiaohan Wang, Linchao Zhu, Yi Yang
- Abstract要約: テスト時間適応(TTA)メソッドはエントロピーの最小化によって自己をブートストラップする。
このような過度な適合を回避し、タスク目標とモデルを整合させるため、フィードバック付きTTAを提案する。
我々は、画像分類、画像テキスト検索、画像キャプションなど様々なタスクにおいて、テスト期間中にVLモデルに対するフィードバックを提供するために、CLIPを報酬モデルとして採用する。
- 参考スコア(独自算出の注目度): 67.21528544724546
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Misalignment between the outputs of a vision-language (VL) model and task
goal hinders its deployment. This issue can worsen when there are distribution
shifts between the training and test data. To address this problem, prevailing
fully test-time adaptation~(TTA) methods bootstrap themselves through entropy
minimization. However, minimizing the entropy of the predictions makes the
model overfit to incorrect output distributions of itself. In this work, we
propose TTA with feedback to avoid such overfitting and align the model with
task goals. Specifically, we adopt CLIP as reward model to provide feedback for
VL models during test time in various tasks, including image classification,
image-text retrieval, and image captioning. Given a single test sample, the
model aims to maximize CLIP reward through reinforcement learning. We adopt a
reward design with the average CLIP score of sampled candidates as the
baseline. This design is simple and surprisingly effective when combined with
various task-specific sampling strategies. The entire system is flexible,
allowing the reward model to be extended with multiple CLIP models. Plus, a
momentum buffer can be used to memorize and leverage the learned knowledge from
multiple test samples. Extensive experiments demonstrate that our method
significantly improves different VL models after TTA.
- Abstract(参考訳): 視覚言語(VL)モデルの出力とタスク目標との相違は、その展開を妨げる。
トレーニングとテストデータの間に分散シフトがある場合、この問題は悪化する可能性がある。
この問題に対処するため、完全なテスト時間適応~(TTA)メソッドがエントロピーの最小化によってブートストラップされる。
しかし、予測のエントロピーを最小化することで、モデル自体の出力分布の誤りに過度に適合する。
本研究では,タスク目標の過度な適合を回避するため,フィードバック付きTTAを提案する。
具体的には、画像分類、画像テキスト検索、画像キャプションといった様々なタスクにおいて、テスト期間中にVLモデルに対するフィードバックを提供するために、報酬モデルとしてCLIPを採用する。
単一のテストサンプルが与えられたモデルでは、強化学習によるCLIP報酬の最大化を目指している。
サンプル候補の平均CLIPスコアをベースラインとして,報酬設計を採用する。
この設計は、様々なタスク固有のサンプリング戦略と組み合わせるとシンプルで驚くほど効果的である。
システム全体が柔軟性があり、報酬モデルを複数のCLIPモデルで拡張することができる。
さらに、momentum bufferを使用して、複数のテストサンプルから学んだ知識を記憶し、活用することもできる。
大規模な実験により,本手法はTTA後の異なるVLモデルを大幅に改善することが示された。
関連論文リスト
- Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model [43.738677778740325]
そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。
Candleは11の多様なデータセットに関する広範な実験を通じて、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-18T14:07:13Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models [55.5610165938949]
ファインチューニング型視覚言語モデル (VLM) はその実用的価値から人気が高まっている。
本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について検討する。
それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。
提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T05:17:25Z) - Robust Fine-Tuning of Vision-Language Models for Domain Generalization [6.7181844004432385]
ファンデーションモデルは、分散シフトの下で、印象的なゼロショット推論能力とロバスト性を持っている。
一般的な視覚言語基盤モデルCLIPの微調整のための新しいレシピを提案する。
私たちの実験では、ゼロショットCLIPは、より複雑なベンチマークでトレーニング済みのビジョンモデルのパフォーマンスと一致しないが、少数ショットCLIPの微調整は、ビジョンのみのパフォーマンスよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-11-03T20:50:40Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。