論文の概要: Bridge the Modality and Capability Gaps in Vision-Language Model Selection
- arxiv url: http://arxiv.org/abs/2403.13797v2
- Date: Sat, 02 Nov 2024 03:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:42:02.354922
- Title: Bridge the Modality and Capability Gaps in Vision-Language Model Selection
- Title(参考訳): 視覚言語モデル選択におけるモダリティと機能ギャップのブリッジ
- Authors: Chao Yi, Yu-Hang He, De-Chuan Zhan, Han-Jia Ye,
- Abstract要約: 視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
- 参考スコア(独自算出の注目度): 62.26769826687365
- License:
- Abstract: Vision Language Models (VLMs) excel in zero-shot image classification by pairing images with textual category names. The expanding variety of Pre-Trained VLMs enhances the likelihood of identifying a suitable VLM for specific tasks. To better reuse the VLM resource and fully leverage its potential on different zero-shot image classification tasks, a promising strategy is selecting appropriate Pre-Trained VLMs from the VLM Zoo, relying solely on the text data of the target dataset without access to the dataset's images. In this paper, we analyze two inherent challenges in assessing the ability of a VLM in this Language-Only VLM selection: the "Modality Gap" - the disparity in VLM's embeddings across two different modalities, making text a less reliable substitute for images; and the "Capability Gap" - the discrepancy between the VLM's overall ranking and its ranking for target dataset, hindering direct prediction of a model's dataset-specific performance from its general performance. We propose VLM Selection With gAp Bridging (SWAB) to mitigate the negative impact of two gaps. SWAB first adopts optimal transport to capture the relevance between open-source and target datasets with a transportation matrix. It then uses this matrix to transfer useful statistics of VLMs from open-source datasets to the target dataset for bridging two gaps. By bridging two gaps to obtain better substitutes for test images, SWAB can accurately predict the performance ranking of different VLMs on the target task without the need for the dataset's images. Experiments across various VLMs and image classification datasets validate SWAB's effectiveness.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
事前学習型VLMの多様化により、特定のタスクに適したVLMを特定する可能性が高まっている。
VLMリソースをよりよく再利用し、さまざまなゼロショット画像分類タスクにそのポテンシャルをフル活用するために、将来的な戦略は、データセットのイメージにアクセスすることなく、ターゲットデータセットのテキストデータのみに依存する、VLM Zooから適切な事前訓練VLMを選択することである。
本稿では,VLM選択におけるVLMの能力を評価するための2つの固有の課題について分析する。「モダリティギャップ」 – VLMの組込みの相違により,画像の信頼性が低下し,テキストの信頼性が低下する「キャパビリティギャップ」 – VLMの全体的なランキングとターゲットデータセットのランクとの相違,モデル固有の性能の一般性能の直接予測が妨げられる。
本稿では,2つのギャップの負の影響を軽減するために,gAp Bridging (SWAB)によるVLM選択を提案する。
SWABはまず、トランスポートマトリックスを使用して、オープンソースとターゲットデータセット間の関連性をキャプチャするために、最適なトランスポートを採用する。
次に、このマトリックスを使用して、オープンソースのデータセットからターゲットデータセットにVLMの有用な統計データを転送し、2つのギャップを埋める。
2つのギャップを埋めてテスト画像のより良い代替品を得ることにより、SWABはデータセットのイメージを必要とせずに、ターゲットタスク上の異なるVLMのパフォーマンスランキングを正確に予測できる。
様々なVLMおよび画像分類データセットを用いた実験により、SWABの有効性が検証された。
関連論文リスト
- Pre-Trained Vision-Language Model Selection and Reuse for Downstream Tasks [48.67303250592189]
本稿では、モデルラベル学習(MLL)と呼ばれる、下流タスクのためのVLMの選択と再利用のための新しいパラダイムを提案する。
モデルラベリングプロセスは目標タスクに依存しないため,提案手法は計算効率が高く,成長可能である。
論文 参考訳(メタデータ) (2025-01-30T11:10:46Z) - Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks [41.488394198111976]
CLIPのような視覚言語モデル(VLM)は、分類ベンチマークで星のゼロショット能力を示している。
ラベル付けされていない下流タスクで最高のパフォーマンスでVLMを選択するのは簡単ではありません。
本稿では、教師なしの下流データセットのみを利用できる、テクスチャファイン教師付き視覚言語モデル選択の問題を紹介する。
論文 参考訳(メタデータ) (2024-12-30T03:26:53Z) - Multimodal Fact-Checking with Vision Language Models: A Probing Classifier based Solution with Embedding Strategies [0.9217021281095907]
本研究では,視覚言語モデル(VLM)のファクトチェックにおけるマルチモーダルコンテンツ表現および活用の有効性を評価する。
マルチモーダリティは性能を向上させることができるが,テキストと画像エンコーダの分離埋め込みはVLM埋め込みよりも優れた結果を示した。
論文 参考訳(メタデータ) (2024-12-06T16:13:19Z) - Sparse Attention Vectors: Generative Multimodal Model Features Are Discriminative Vision-Language Classifiers [79.45405711339322]
生成型大規模マルチモーダルモデル(LMM)は、画像キャプションや視覚的質問応答など、様々な視覚言語(VL)タスクに優れる。
本稿では,LMMを識別タスクに効果的に活用する手法を提案する。
論文 参考訳(メタデータ) (2024-11-28T18:55:41Z) - The Solution for CVPR2024 Foundational Few-Shot Object Detection Challenge [14.330962576584446]
本稿では,視覚言語モデル(VLM)をオブジェクト検出に活用したFSOD(Foundational Few-Shot Object Detection)タスクの強化手法を提案する。
マルチモーダル大言語モデル(MM-LLM)を統合したVLM+フレームワークを提案する。
これらの参照表現を用いて、トレーニングセット内のすべての画像に対して擬似ラベルを生成し、元のラベル付きデータと組み合わせてVLMを微調整する。
論文 参考訳(メタデータ) (2024-06-18T03:03:02Z) - Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。
我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。
実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文 参考訳(メタデータ) (2024-06-16T16:15:20Z) - Why are Visually-Grounded Language Models Bad at Image Classification? [39.76294811955341]
GPT-4VやLLaVAといった視覚的言語モデル(VLM)を用いて画像分類タスクを再検討する。
既存のプロプライエタリかつパブリックなVLMは、ImageNetのような標準画像分類ベンチマークにおいてCLIPを著しく上回っていることがわかった。
画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。
論文 参考訳(メタデータ) (2024-05-28T17:57:06Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。