論文の概要: Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks
- arxiv url: http://arxiv.org/abs/2412.20682v1
- Date: Mon, 30 Dec 2024 03:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:02:30.838013
- Title: Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks
- Title(参考訳): 下流タスクのための事前学習型視覚言語モデルのランク付け学習
- Authors: Yuhe Ding, Bo Jiang, Aihua Zheng, Qin Xu, Jian Liang,
- Abstract要約: CLIPのような視覚言語モデル(VLM)は、分類ベンチマークで星のゼロショット能力を示している。
ラベル付けされていない下流タスクで最高のパフォーマンスでVLMを選択するのは簡単ではありません。
本稿では、教師なしの下流データセットのみを利用できる、テクスチャファイン教師付き視覚言語モデル選択の問題を紹介する。
- 参考スコア(独自算出の注目度): 41.488394198111976
- License:
- Abstract: Vision language models (VLMs) like CLIP show stellar zero-shot capability on classification benchmarks. However, selecting the VLM with the highest performance on the unlabeled downstream task is non-trivial. Existing VLM selection methods focus on the class-name-only setting, relying on a supervised large-scale dataset and large language models, which may not be accessible or feasible during deployment. This paper introduces the problem of \textbf{unsupervised vision-language model selection}, where only unsupervised downstream datasets are available, with no additional information provided. To solve this problem, we propose a method termed Visual-tExtual Graph Alignment (VEGA), to select VLMs without any annotations by measuring the alignment of the VLM between the two modalities on the downstream task. VEGA is motivated by the pretraining paradigm of VLMs, which aligns features with the same semantics from the visual and textual modalities, thereby mapping both modalities into a shared representation space. Specifically, we first construct two graphs on the vision and textual features, respectively. VEGA is then defined as the overall similarity between the visual and textual graphs at both node and edge levels. Extensive experiments across three different benchmarks, covering a variety of application scenarios and downstream datasets, demonstrate that VEGA consistently provides reliable and accurate estimates of VLMs' performance on unlabeled downstream tasks.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は、分類ベンチマークで星のゼロショット能力を示している。
しかし、ラベル付けされていない下流タスクで最高のパフォーマンスでVLMを選択するのは簡単ではない。
既存のVLM選択方法はクラス名のみの設定に重点を置いており、監視対象の大規模データセットと大規模言語モデルに依存している。
本稿では、教師なしダウンストリームデータセットのみを利用可能とし、追加情報を提供しない「textbf{unsupervised vision- language model selection」の問題を紹介する。
この問題を解決するために,VLMを下流タスク上の2つのモード間のアライメントを計測することにより,アノテーションを使わずにVLMを選択する,VEGA (Visual-tExtual Graph Alignment) という手法を提案する。
VEGAはVLMの事前学習パラダイムによって動機付けられており、視覚的およびテキスト的モダリティから特徴を同じ意味論と整合させ、両方のモダリティを共有表現空間にマッピングする。
具体的には、まず視覚とテキストの特徴に関する2つのグラフを構築する。
VEGAは、ノードレベルとエッジレベルのビジュアルグラフとテキストグラフの全体的な類似性として定義される。
さまざまなアプリケーションシナリオとダウンストリームデータセットをカバーする3つのベンチマークにわたる大規模な実験は、VEGAが、ラベル付けされていない下流タスク上でのVLMのパフォーマンスの信頼性と正確な評価を一貫して提供することを実証している。
関連論文リスト
- Enhance Graph Alignment for Large Language Models [33.96082485852042]
グラフへのアプローチは、大規模言語モデルがグラフ情報を処理できることで人気がある。
既存の手法は、自己監督タスクと下流タスクの間に不一致がある。
協調タスクテンプレートの恩恵を受けるために,グラフアライメント大言語モデル(GALLM)を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:50:34Z) - Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z) - Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding [33.33424214458285]
視覚言語モデル(VLM)は、様々な下流タスクで顕著な性能を示した。
しかし、属性やオブジェクト間の関係など、きめ細かい視覚言語概念を理解することは、依然として重要な課題である。
他のすべての面において一貫性を確保しつつ、特定の属性で異なる画像を合成するプログレッシブパイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-30T03:20:37Z) - Leveraging VLM-Based Pipelines to Annotate 3D Objects [68.51034848207355]
本稿では,VLMの応答に影響を与える視点などの要因を疎外する代替アルゴリズムを提案する。
テキストのみの応答をマージする代わりに、VLMの合同画像テキストの可能性を利用する。
VLMベースのパイプラインを使って764Kデータセットから764Kオブジェクトの信頼性の高いアノテーションを生成する方法を示す。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - Aligning Source Visual and Target Language Domains for Unpaired Video
Captioning [97.58101383280345]
教師付きビデオキャプションモデルの訓練には、組み合わせたビデオキャプションペアが必要である。
対象言語におけるビデオキャプションペアを結合せずにモデルを訓練することを目的とした未ペアビデオキャプションタスクを導入する。
論文 参考訳(メタデータ) (2022-11-22T10:26:26Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。