Fugu-MT 論文翻訳(概要): Bridge the Modality and Capacity Gaps in Vision-Language Model Selection

論文の概要: Bridge the Modality and Capacity Gaps in Vision-Language Model Selection

arxiv url: http://arxiv.org/abs/2403.13797v1
Date: Wed, 20 Mar 2024 17:54:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 15:48:57.782413
Title: Bridge the Modality and Capacity Gaps in Vision-Language Model Selection
Title（参考訳）: 視覚言語モデル選択におけるモダリティとキャパシティギャップのブリッジ
Authors: Chao Yi, De-Chuan Zhan, Han-Jia Ye,
Abstract要約: 視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。望まれるゼロショット画像分類戦略は、VLM動物園から最も適切な事前訓練VLMを選択することである。本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。本稿では,これら2つのギャップの負の影響を軽減するために,gAp Bridging (SWAB)によるVLM選択を提案する。
参考スコア（独自算出の注目度）: 60.049430086731846
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision Language Models (VLMs) excel in zero-shot image classification by pairing images with textual category names. The expanding variety of Pre-Trained VLMs enhances the likelihood of identifying a suitable VLM for specific tasks. Thus, a promising zero-shot image classification strategy is selecting the most appropriate Pre-Trained VLM from the VLM Zoo, relying solely on the text data of the target dataset without access to the dataset's images. In this paper, we analyze two inherent challenges in assessing the ability of a VLM in this Language-Only VLM selection: the "Modality Gap" -- the disparity in VLM's embeddings across two different modalities, making text a less reliable substitute for images; and the "Capability Gap" -- the discrepancy between the VLM's overall ranking and its ranking for target dataset, hindering direct prediction of a model's dataset-specific performance from its general performance. We propose VLM Selection With gAp Bridging (SWAB) to mitigate the negative impact of these two gaps. SWAB first adopts optimal transport to capture the relevance between open-source datasets and target dataset with a transportation matrix. It then uses this matrix to transfer useful statistics of VLMs from open-source datasets to the target dataset for bridging those two gaps and enhancing the VLM's capacity estimation for VLM selection. Experiments across various VLMs and image classification datasets validate SWAB's effectiveness.
Abstract（参考訳）: 視覚言語モデル (VLM) は、画像とテキストカテゴリ名とのペアリングによるゼロショット画像分類において優れている。事前学習型VLMの多様化により、特定のタスクに適したVLMを特定する可能性が高まっている。このように、有望なゼロショット画像分類戦略は、データセットの画像にアクセスせずにターゲットデータセットのテキストデータのみに依存する、VLM Zooから最も適切な事前訓練VLMを選択することである。本稿では、VLM選択におけるVLMの能力を評価するための2つの固有の課題について分析する。「モダリティギャップ」とは、VLMの組込みにおける相違であり、テキストを画像の信頼性の低い代替品にすること、「キャパビリティギャップ」とは、VLMの全体ランキングとターゲットデータセットのランキングとの相違であり、モデル固有の性能の一般的な性能から直接予測することを妨げるものである。本稿では,これら2つのギャップの負の影響を軽減するために,gAp Bridging (SWAB)によるVLM選択を提案する。 SWABは、まず最適なトランスポートを採用して、トランスポートマトリックスを使用して、オープンソースデータセットとターゲットデータセットの間の関連性をキャプチャする。次に、このマトリックスを使用して、オープンソースのデータセットからターゲットデータセットにVLMの有用な統計データを転送し、2つのギャップを埋め、VLM選択のためのVLMのキャパシティ推定を強化する。様々なVLMおよび画像分類データセットを用いた実験により、SWABの有効性が検証された。

関連論文リスト

ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
Pre-Trained Vision-Language Model Selection and Reuse for Downstream Tasks [48.67303250592189]
本稿では、モデルラベル学習(MLL)と呼ばれる、下流タスクのためのVLMの選択と再利用のための新しいパラダイムを提案する。モデルラベリングプロセスは目標タスクに依存しないため,提案手法は計算効率が高く,成長可能である。
論文参考訳（メタデータ） (2025-01-30T11:10:46Z)
Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks [41.488394198111976]
CLIPのような視覚言語モデル(VLM)は、分類ベンチマークで星のゼロショット能力を示している。ラベル付けされていない下流タスクで最高のパフォーマンスでVLMを選択するのは簡単ではありません。本稿では、教師なしの下流データセットのみを利用できる、テクスチャファイン教師付き視覚言語モデル選択の問題を紹介する。
論文参考訳（メタデータ） (2024-12-30T03:26:53Z)
Multimodal Fact-Checking with Vision Language Models: A Probing Classifier based Solution with Embedding Strategies [0.9217021281095907]
本研究では,視覚言語モデル(VLM)のファクトチェックにおけるマルチモーダルコンテンツ表現および活用の有効性を評価する。マルチモーダリティは性能を向上させることができるが,テキストと画像エンコーダの分離埋め込みはVLM埋め込みよりも優れた結果を示した。
論文参考訳（メタデータ） (2024-12-06T16:13:19Z)
Sparse Attention Vectors: Generative Multimodal Model Features Are Discriminative Vision-Language Classifiers [79.45405711339322]
生成型大規模マルチモーダルモデル(LMM)は、画像キャプションや視覚的質問応答など、様々な視覚言語(VL)タスクに優れる。本稿では,LMMを識別タスクに効果的に活用する手法を提案する。
論文参考訳（メタデータ） (2024-11-28T18:55:41Z)
Membership Inference Attacks against Large Vision-Language Models [40.996912464828696]
大規模視覚言語モデル(VLLM)は、様々なアプリケーションシナリオにわたるマルチモーダルタスクを処理するための有望な能力を示す。彼らの出現は、プライベート写真や医療記録などの機密情報を含む可能性があることを考えると、重要なデータセキュリティ上の懸念も引き起こす。 VLLMで不適切な使用データを検出することは、致命的かつ未解決な問題である。
論文参考訳（メタデータ） (2024-11-05T08:35:08Z)
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models [85.30735602813093]
Multi-Image Augmented Direct Preference Optimization (MIA-DPO)は、マルチイメージ入力を効果的に処理する視覚的嗜好アライメントアプローチである。 MIA-DPOは、グリッドコラージュやピクチャ・イン・ピクチャ形式で配置された無関係な画像で単一の画像データを拡張することにより、多様なマルチイメージトレーニングデータの不足を軽減する。
論文参考訳（メタデータ） (2024-10-23T07:56:48Z)
The Solution for CVPR2024 Foundational Few-Shot Object Detection Challenge [14.330962576584446]
本稿では,視覚言語モデル(VLM)をオブジェクト検出に活用したFSOD(Foundational Few-Shot Object Detection)タスクの強化手法を提案する。マルチモーダル大言語モデル(MM-LLM)を統合したVLM+フレームワークを提案する。これらの参照表現を用いて、トレーニングセット内のすべての画像に対して擬似ラベルを生成し、元のラベル付きデータと組み合わせてVLMを微調整する。
論文参考訳（メタデータ） (2024-06-18T03:03:02Z)
Concept-skill Transferability-based Data Selection for Large Vision-Language Models [56.0725292404808]
視覚言語モデルを学習するための効果的でスケーラブルなデータ選択手法であるCOINCIDEを紹介する。我々は,目標LVLMに必要な概念スキル構成を識別する小型モデルからの内部アクティベーションを用いて,トレーニングデータをクラスタ化する。実験により、COINCIDEは8つの強いベースラインに対して、優れた性能とデータ選択効率を実現することが示された。
論文参考訳（メタデータ） (2024-06-16T16:15:20Z)
Why are Visually-Grounded Language Models Bad at Image Classification? [39.76294811955341]
GPT-4VやLLaVAといった視覚的言語モデル(VLM)を用いて画像分類タスクを再検討する。既存のプロプライエタリかつパブリックなVLMは、ImageNetのような標準画像分類ベンチマークにおいてCLIPを著しく上回っていることがわかった。画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。
論文参考訳（メタデータ） (2024-05-28T17:57:06Z)
CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文参考訳（メタデータ） (2023-12-04T05:13:59Z)
Leveraging Vision-Language Models for Improving Domain Generalization in Image Classification [35.277880733198586]
VLM(Vision-Language Models)は、大量の画像とテキストのペアで訓練され、複数のデータ分布に顕著な一般化をもたらす。本稿では,教師モデルの視覚と言語モダリティを,事前学習した学生モデルの視覚のモダリティと整合させるビジョン・ランゲージ・トゥ・ビジョン(VL2V-ADiP)を提案する。これは、VLM画像エンコーダの豊かな表現とテキスト埋め込みの優れた一般化を取り入れつつ、学生の事前訓練された特徴を最大限に保持する。
論文参考訳（メタデータ） (2023-10-12T11:59:54Z)
TAP: Targeted Prompting for Task Adaptive Generation of Textual Training Instances for Visual Classification [28.72126911321771]
視覚と言語モデル(VLM)は、テキストプロンプトによって記述される潜在的に無制限なカテゴリの視覚的認識を可能にした。最高の視覚認識性能を得るためには、これらのモデルは下流のタスクのデータ分散をよりよく適合させるためにチューニングが必要である。
論文参考訳（メタデータ） (2023-09-13T08:59:54Z)
ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-01T18:16:06Z)
Adapting Pre-trained Language Models to Vision-Language Tasks via Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文参考訳（メタデータ） (2023-06-01T07:19:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。