論文の概要: Bridge the Modality and Capacity Gaps in Vision-Language Model Selection
- arxiv url: http://arxiv.org/abs/2403.13797v1
- Date: Wed, 20 Mar 2024 17:54:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 15:48:57.782413
- Title: Bridge the Modality and Capacity Gaps in Vision-Language Model Selection
- Title(参考訳): 視覚言語モデル選択におけるモダリティとキャパシティギャップのブリッジ
- Authors: Chao Yi, De-Chuan Zhan, Han-Jia Ye,
- Abstract要約: 視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
望まれるゼロショット画像分類戦略は、VLM動物園から最も適切な事前訓練VLMを選択することである。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,これら2つのギャップの負の影響を軽減するために,gAp Bridging (SWAB)によるVLM選択を提案する。
- 参考スコア(独自算出の注目度): 60.049430086731846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) excel in zero-shot image classification by pairing images with textual category names. The expanding variety of Pre-Trained VLMs enhances the likelihood of identifying a suitable VLM for specific tasks. Thus, a promising zero-shot image classification strategy is selecting the most appropriate Pre-Trained VLM from the VLM Zoo, relying solely on the text data of the target dataset without access to the dataset's images. In this paper, we analyze two inherent challenges in assessing the ability of a VLM in this Language-Only VLM selection: the "Modality Gap" -- the disparity in VLM's embeddings across two different modalities, making text a less reliable substitute for images; and the "Capability Gap" -- the discrepancy between the VLM's overall ranking and its ranking for target dataset, hindering direct prediction of a model's dataset-specific performance from its general performance. We propose VLM Selection With gAp Bridging (SWAB) to mitigate the negative impact of these two gaps. SWAB first adopts optimal transport to capture the relevance between open-source datasets and target dataset with a transportation matrix. It then uses this matrix to transfer useful statistics of VLMs from open-source datasets to the target dataset for bridging those two gaps and enhancing the VLM's capacity estimation for VLM selection. Experiments across various VLMs and image classification datasets validate SWAB's effectiveness.
- Abstract(参考訳): 視覚言語モデル (VLM) は、画像とテキストカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
事前学習型VLMの多様化により、特定のタスクに適したVLMを特定する可能性が高まっている。
このように、有望なゼロショット画像分類戦略は、データセットの画像にアクセスせずにターゲットデータセットのテキストデータのみに依存する、VLM Zooから最も適切な事前訓練VLMを選択することである。
本稿では、VLM選択におけるVLMの能力を評価するための2つの固有の課題について分析する。「モダリティギャップ」とは、VLMの組込みにおける相違であり、テキストを画像の信頼性の低い代替品にすること、「キャパビリティギャップ」とは、VLMの全体ランキングとターゲットデータセットのランキングとの相違であり、モデル固有の性能の一般的な性能から直接予測することを妨げるものである。
本稿では,これら2つのギャップの負の影響を軽減するために,gAp Bridging (SWAB)によるVLM選択を提案する。
SWABは、まず最適なトランスポートを採用して、トランスポートマトリックスを使用して、オープンソースデータセットとターゲットデータセットの間の関連性をキャプチャする。
次に、このマトリックスを使用して、オープンソースのデータセットからターゲットデータセットにVLMの有用な統計データを転送し、2つのギャップを埋め、VLM選択のためのVLMのキャパシティ推定を強化する。
様々なVLMおよび画像分類データセットを用いた実験により、SWABの有効性が検証された。
関連論文リスト
- Pre-Trained Vision-Language Model Selection and Reuse for Downstream Tasks [48.67303250592189]
本稿では、モデルラベル学習(MLL)と呼ばれる、下流タスクのためのVLMの選択と再利用のための新しいパラダイムを提案する。
モデルラベリングプロセスは目標タスクに依存しないため,提案手法は計算効率が高く,成長可能である。
論文 参考訳(メタデータ) (2025-01-30T11:10:46Z) - Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks [41.488394198111976]
CLIPのような視覚言語モデル(VLM)は、分類ベンチマークで星のゼロショット能力を示している。
ラベル付けされていない下流タスクで最高のパフォーマンスでVLMを選択するのは簡単ではありません。
本稿では、教師なしの下流データセットのみを利用できる、テクスチャファイン教師付き視覚言語モデル選択の問題を紹介する。
論文 参考訳(メタデータ) (2024-12-30T03:26:53Z) - Multimodal Fact-Checking with Vision Language Models: A Probing Classifier based Solution with Embedding Strategies [0.9217021281095907]
本研究では,視覚言語モデル(VLM)のファクトチェックにおけるマルチモーダルコンテンツ表現および活用の有効性を評価する。
マルチモーダリティは性能を向上させることができるが,テキストと画像エンコーダの分離埋め込みはVLM埋め込みよりも優れた結果を示した。
論文 参考訳(メタデータ) (2024-12-06T16:13:19Z) - Sparse Attention Vectors: Generative Multimodal Model Features Are Discriminative Vision-Language Classifiers [79.45405711339322]
生成型大規模マルチモーダルモデル(LMM)は、画像キャプションや視覚的質問応答など、様々な視覚言語(VL)タスクに優れる。
本稿では,LMMを識別タスクに効果的に活用する手法を提案する。
論文 参考訳(メタデータ) (2024-11-28T18:55:41Z) - The Solution for CVPR2024 Foundational Few-Shot Object Detection Challenge [14.330962576584446]
本稿では,視覚言語モデル(VLM)をオブジェクト検出に活用したFSOD(Foundational Few-Shot Object Detection)タスクの強化手法を提案する。
マルチモーダル大言語モデル(MM-LLM)を統合したVLM+フレームワークを提案する。
これらの参照表現を用いて、トレーニングセット内のすべての画像に対して擬似ラベルを生成し、元のラベル付きデータと組み合わせてVLMを微調整する。
論文 参考訳(メタデータ) (2024-06-18T03:03:02Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - Why are Visually-Grounded Language Models Bad at Image Classification? [39.76294811955341]
GPT-4VやLLaVAといった視覚的言語モデル(VLM)を用いて画像分類タスクを再検討する。
既存のプロプライエタリかつパブリックなVLMは、ImageNetのような標準画像分類ベンチマークにおいてCLIPを著しく上回っていることがわかった。
画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。
論文 参考訳(メタデータ) (2024-05-28T17:57:06Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。