論文の概要: Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2305.18010v2
- Date: Wed, 21 Feb 2024 06:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 21:04:36.467835
- Title: Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるゼロショット一般化のためのクリップ報酬によるテスト時間適応
- Authors: Shuai Zhao, Xiaohan Wang, Linchao Zhu, Yi Yang
- Abstract要約: モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
- 参考スコア(独自算出の注目度): 76.410400238974
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: One fascinating aspect of pre-trained vision-language models~(VLMs) learning
under language supervision is their impressive zero-shot generalization
capability. However, this ability is hindered by distribution shifts between
the training and testing data. Previous test time adaptation~(TTA) methods for
VLMs in zero-shot classification rely on minimizing the entropy of model
outputs, tending to be stuck in incorrect model predictions. In this work, we
propose TTA with feedback to rectify the model output and prevent the model
from becoming blindly confident. Specifically, a CLIP model is adopted as the
reward model during TTA and provides feedback for the VLM. Given a single test
sample, the VLM is forced to maximize the CLIP reward between the input and
sampled results from the VLM output distribution. The proposed
\textit{reinforcement learning with CLIP feedback~(RLCF)} framework is highly
flexible and universal. Beyond the classification task, with task-specific
sampling strategies and a proper reward baseline choice, RLCF can be easily
extended to not only discrimination tasks like retrieval but also
generalization tasks like image captioning, improving the zero-shot
generalization capacity of VLMs. According to the characteristics of these VL
tasks, we build different fully TTA pipelines with RLCF to improve the
zero-shot generalization ability of various VLMs. Extensive experiments along
with promising empirical results demonstrate the effectiveness of RLCF. The
code is available at https://github.com/mzhaoshuai/RLCF.
- Abstract(参考訳): 事前学習された視覚言語モデル~(VLM)学習の興味深い側面は、その印象的なゼロショット一般化能力である。
しかし、この能力はトレーニングとテストデータの分散シフトによって阻害される。
ゼロショット分類におけるVLMの以前のテスト時間適応~(TTA)方法は、モデル出力のエントロピーを最小化することに依存しており、誤ったモデル予測に留まる傾向にある。
本研究では,モデル出力を補正し,モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
具体的には、TTAの報酬モデルとしてCLIPモデルを採用し、VLMにフィードバックを提供する。
単一のテストサンプルが与えられた場合、VLM出力分布からの入力とサンプル結果の間のCLIP報酬を最大化せざるを得ない。
提案する‘textit{reinforcement learning with CLIP feedback~(RLCF)}フレームワークは非常に柔軟で普遍的だ。
分類タスクを超えて、タスク固有のサンプリング戦略と適切な報酬ベースライン選択により、RCCFは検索のような識別タスクだけでなく、画像キャプションのような一般化タスクにも容易に拡張でき、VLMのゼロショット一般化能力を向上させることができる。
これらのVLタスクの特徴により、様々なVLMのゼロショット一般化能力を改善するために、RCCFで異なる完全TTAパイプラインを構築する。
広範な実験と有望な実験結果がrlcfの有効性を示している。
コードはhttps://github.com/mzhaoshuai/rlcfで入手できる。
関連論文リスト
- Efficient and Long-Tailed Generalization for Pre-trained Vision-Language Model [43.738677778740325]
そこで本研究では,Candleと呼ばれる,効率的かつ長期にわたる一般化を実現するための新しいフレームワークを提案する。
Candleは11の多様なデータセットに関する広範な実験を通じて、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-18T14:07:13Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models [55.5610165938949]
ファインチューニング型視覚言語モデル (VLM) はその実用的価値から人気が高まっている。
本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について検討する。
それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。
提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T05:17:25Z) - Robust Fine-Tuning of Vision-Language Models for Domain Generalization [6.7181844004432385]
ファンデーションモデルは、分散シフトの下で、印象的なゼロショット推論能力とロバスト性を持っている。
一般的な視覚言語基盤モデルCLIPの微調整のための新しいレシピを提案する。
私たちの実験では、ゼロショットCLIPは、より複雑なベンチマークでトレーニング済みのビジョンモデルのパフォーマンスと一致しないが、少数ショットCLIPの微調整は、ビジョンのみのパフォーマンスよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-11-03T20:50:40Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。