論文の概要: Leveraging Vision-Language Models for Improving Domain Generalization in
Image Classification
- arxiv url: http://arxiv.org/abs/2310.08255v2
- Date: Sat, 9 Mar 2024 09:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:49:28.222038
- Title: Leveraging Vision-Language Models for Improving Domain Generalization in
Image Classification
- Title(参考訳): 視覚言語モデルを活用した画像分類における領域一般化
- Authors: Sravanti Addepalli, Ashish Ramayee Asokan, Lakshay Sharma, R.
Venkatesh Babu
- Abstract要約: VLM(Vision-Language Models)は、大量の画像とテキストのペアで訓練され、複数のデータ分布に顕著な一般化をもたらす。
本稿では,教師モデルの視覚と言語モダリティを,事前学習した学生モデルの視覚のモダリティと整合させるビジョン・ランゲージ・トゥ・ビジョン(VL2V-ADiP)を提案する。
これは、VLM画像エンコーダの豊かな表現とテキスト埋め込みの優れた一般化を取り入れつつ、学生の事前訓練された特徴を最大限に保持する。
- 参考スコア(独自算出の注目度): 35.277880733198586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) such as CLIP are trained on large amounts of
image-text pairs, resulting in remarkable generalization across several data
distributions. However, in several cases, their expensive training and data
collection/curation costs do not justify the end application. This motivates a
vendor-client paradigm, where a vendor trains a large-scale VLM and grants only
input-output access to clients on a pay-per-query basis in a black-box setting.
The client aims to minimize inference cost by distilling the VLM to a student
model using the limited available task-specific data, and further deploying
this student model in the downstream application. While naive distillation
largely improves the In-Domain (ID) accuracy of the student, it fails to
transfer the superior out-of-distribution (OOD) generalization of the VLM
teacher using the limited available labeled images. To mitigate this, we
propose Vision-Language to Vision - Align, Distill, Predict (VL2V-ADiP), which
first aligns the vision and language modalities of the teacher model with the
vision modality of a pre-trained student model, and further distills the
aligned VLM representations to the student. This maximally retains the
pre-trained features of the student, while also incorporating the rich
representations of the VLM image encoder and the superior generalization of the
text embeddings. The proposed approach achieves state-of-the-art results on the
standard Domain Generalization benchmarks in a black-box teacher setting as
well as a white-box setting where the weights of the VLM are accessible.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は大量の画像とテキストのペアで訓練されており、いくつかのデータ分布に顕著な一般化をもたらす。
しかし、いくつかのケースでは、その高価なトレーニングとデータ収集/計算コストは、エンドユーザを正当化しない。
ベンダーは大規模なVLMをトレーニングし、ブラックボックス設定でペイ・パー・クエリーベースでクライアントへの入出力アクセスのみを許可する。
クライアントは、限られたタスク固有のデータを用いてVLMを学生モデルに蒸留し、さらに下流アプリケーションにこの学生モデルを配置することで、推論コストを最小化する。
ナイーブ蒸留は学生のドメイン内(id)精度を大幅に向上させるが,限定ラベル画像を用いたvlm教師の優れたアウト・オブ・ディストリビューション(ood)一般化は実現できない。
そこで本研究では,教師モデルの視覚と言語的モダリティを予め学習した学生モデルの視覚モダリティにまず整合させ,さらにvlm表現を学生に蒸留する視覚言語対視覚言語対予測(vl2v-adip)を提案する。
これは、VLM画像エンコーダの豊かな表現とテキスト埋め込みの優れた一般化を取り入れつつ、学生の事前訓練された特徴を最大限に保持する。
提案手法は,標準のドメイン一般化ベンチマークをブラックボックスの教師設定と,VLMの重みがアクセス可能なホワイトボックスの設定で実現している。
関連論文リスト
- How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - Fully Fine-tuned CLIP Models are Efficient Few-Shot Learners [8.707819647492467]
視覚言語モデル全体(VLM)の精巧な精細化によるタスク固有情報の取得について検討する。
これらの問題を緩和するために,識別的視覚テキストタスクを設計するCLIP-CITEというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-04T15:22:54Z) - Prism: A Framework for Decoupling and Assessing the Capabilities of VLMs [83.24033574914425]
視覚的問題解決に関わる知覚と推論のプロセスを切り離すために設計された革新的フレームワークであるPrismを提示する。
プリズムは、VLMを利用してテキスト形式で視覚情報を抽出・調音する知覚段階と、抽出された視覚情報に基づいて応答を定式化する推論段階と、2つの異なる段階から構成される。
私たちの分析フレームワークは、視覚言語タスクのコスト効率のよいソリューションとして、Prismの可能性について、いくつかの貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T17:54:03Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - Why are Visually-Grounded Language Models Bad at Image Classification? [39.76294811955341]
GPT-4VやLLaVAといった視覚的言語モデル(VLM)を用いて画像分類タスクを再検討する。
既存のプロプライエタリかつパブリックなVLMは、ImageNetのような標準画像分類ベンチマークにおいてCLIPを著しく上回っていることがわかった。
画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。
論文 参考訳(メタデータ) (2024-05-28T17:57:06Z) - Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z) - Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models [55.5610165938949]
ファインチューニング型視覚言語モデル (VLM) はその実用的価値から人気が高まっている。
本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について検討する。
それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。
提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T05:17:25Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。