論文の概要: Leveraging Vision-Language Models for Improving Domain Generalization in
Image Classification
- arxiv url: http://arxiv.org/abs/2310.08255v2
- Date: Sat, 9 Mar 2024 09:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:49:28.222038
- Title: Leveraging Vision-Language Models for Improving Domain Generalization in
Image Classification
- Title(参考訳): 視覚言語モデルを活用した画像分類における領域一般化
- Authors: Sravanti Addepalli, Ashish Ramayee Asokan, Lakshay Sharma, R.
Venkatesh Babu
- Abstract要約: VLM(Vision-Language Models)は、大量の画像とテキストのペアで訓練され、複数のデータ分布に顕著な一般化をもたらす。
本稿では,教師モデルの視覚と言語モダリティを,事前学習した学生モデルの視覚のモダリティと整合させるビジョン・ランゲージ・トゥ・ビジョン(VL2V-ADiP)を提案する。
これは、VLM画像エンコーダの豊かな表現とテキスト埋め込みの優れた一般化を取り入れつつ、学生の事前訓練された特徴を最大限に保持する。
- 参考スコア(独自算出の注目度): 35.277880733198586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) such as CLIP are trained on large amounts of
image-text pairs, resulting in remarkable generalization across several data
distributions. However, in several cases, their expensive training and data
collection/curation costs do not justify the end application. This motivates a
vendor-client paradigm, where a vendor trains a large-scale VLM and grants only
input-output access to clients on a pay-per-query basis in a black-box setting.
The client aims to minimize inference cost by distilling the VLM to a student
model using the limited available task-specific data, and further deploying
this student model in the downstream application. While naive distillation
largely improves the In-Domain (ID) accuracy of the student, it fails to
transfer the superior out-of-distribution (OOD) generalization of the VLM
teacher using the limited available labeled images. To mitigate this, we
propose Vision-Language to Vision - Align, Distill, Predict (VL2V-ADiP), which
first aligns the vision and language modalities of the teacher model with the
vision modality of a pre-trained student model, and further distills the
aligned VLM representations to the student. This maximally retains the
pre-trained features of the student, while also incorporating the rich
representations of the VLM image encoder and the superior generalization of the
text embeddings. The proposed approach achieves state-of-the-art results on the
standard Domain Generalization benchmarks in a black-box teacher setting as
well as a white-box setting where the weights of the VLM are accessible.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は大量の画像とテキストのペアで訓練されており、いくつかのデータ分布に顕著な一般化をもたらす。
しかし、いくつかのケースでは、その高価なトレーニングとデータ収集/計算コストは、エンドユーザを正当化しない。
ベンダーは大規模なVLMをトレーニングし、ブラックボックス設定でペイ・パー・クエリーベースでクライアントへの入出力アクセスのみを許可する。
クライアントは、限られたタスク固有のデータを用いてVLMを学生モデルに蒸留し、さらに下流アプリケーションにこの学生モデルを配置することで、推論コストを最小化する。
ナイーブ蒸留は学生のドメイン内(id)精度を大幅に向上させるが,限定ラベル画像を用いたvlm教師の優れたアウト・オブ・ディストリビューション(ood)一般化は実現できない。
そこで本研究では,教師モデルの視覚と言語的モダリティを予め学習した学生モデルの視覚モダリティにまず整合させ,さらにvlm表現を学生に蒸留する視覚言語対視覚言語対予測(vl2v-adip)を提案する。
これは、VLM画像エンコーダの豊かな表現とテキスト埋め込みの優れた一般化を取り入れつつ、学生の事前訓練された特徴を最大限に保持する。
提案手法は,標準のドメイン一般化ベンチマークをブラックボックスの教師設定と,VLMの重みがアクセス可能なホワイトボックスの設定で実現している。
関連論文リスト
- Bridge the Modality and Capacity Gaps in Vision-Language Model Selection [60.049430086731846]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
望まれるゼロショット画像分類戦略は、VLM動物園から最も適切な事前訓練VLMを選択することである。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,これら2つのギャップの負の影響を軽減するために,gAp Bridging (SWAB)によるVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z) - Jack of All Tasks, Master of Many: Designing General-purpose
Coarse-to-Fine Vision-Language Model [87.01213887685952]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Beyond Sole Strength: Customized Ensembles for Generalized
Vision-Language Models [59.608411859194]
ファインチューニング型視覚言語モデル (VLM) はその実用的価値から人気が高まっている。
本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について検討する。
それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。
提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T05:17:25Z) - TAP: Targeted Prompting for Task Adaptive Generation of Textual Training
Instances for Visual Classification [28.72126911321771]
視覚と言語モデル(VLM)は、テキストプロンプトによって記述される潜在的に無制限なカテゴリの視覚的認識を可能にした。
最高の視覚認識性能を得るためには、これらのモデルは下流のタスクのデータ分散をよりよく適合させるためにチューニングが必要である。
論文 参考訳(メタデータ) (2023-09-13T08:59:54Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。