論文の概要: LOVM: Language-Only Vision Model Selection
- arxiv url: http://arxiv.org/abs/2306.08893v1
- Date: Thu, 15 Jun 2023 06:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:13:17.269422
- Title: LOVM: Language-Only Vision Model Selection
- Title(参考訳): LOVM:言語のみのビジョンモデル選択
- Authors: Orr Zohar, Shih-Cheng Huang, Kuan-Chieh Wang, Serena Yeung
- Abstract要約: 言語のみの視覚モデル選択(Language-Only Vision Model Selection)では,モデル選択と性能予測の両方を実行することが期待される。
次に,35個の事前学習されたVLMと23個のデータセットの地上信頼度評価からなるLOVMベンチマークを導入した。
- 参考スコア(独自算出の注目度): 13.857583570058392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained multi-modal vision-language models (VLMs) are becoming
increasingly popular due to their exceptional performance on downstream vision
applications, particularly in the few- and zero-shot settings. However,
selecting the best-performing VLM for some downstream applications is
non-trivial, as it is dataset and task-dependent. Meanwhile, the exhaustive
evaluation of all available VLMs on a novel application is not only time and
computationally demanding but also necessitates the collection of a labeled
dataset for evaluation. As the number of open-source VLM variants increases,
there is a need for an efficient model selection strategy that does not require
access to a curated evaluation dataset. This paper proposes a novel task and
benchmark for efficiently evaluating VLMs' zero-shot performance on downstream
applications without access to the downstream task dataset. Specifically, we
introduce a new task LOVM: Language-Only Vision Model Selection, where methods
are expected to perform both model selection and performance prediction based
solely on a text description of the desired downstream application. We then
introduced an extensive LOVM benchmark consisting of ground-truth evaluations
of 35 pre-trained VLMs and 23 datasets, where methods are expected to rank the
pre-trained VLMs and predict their zero-shot performance.
- Abstract(参考訳): 事前訓練されたマルチモーダル視覚言語モデル(VLM)は、下流の視覚アプリケーション、特に少数およびゼロショット設定における例外的な性能のために人気が高まっている。
しかしながら、いくつかの下流アプリケーションで最高のパフォーマンスのVLMを選択することは、データセットとタスク依存であるため、簡単ではない。
一方、新しいアプリケーション上で利用可能なすべてのVLMの徹底的な評価は、時間と計算的な要求だけでなく、ラベル付きデータセットの収集も必要である。
オープンソースVLMの変種数が増加するにつれて、キュレートされた評価データセットへのアクセスを必要としない効率的なモデル選択戦略が必要である。
本稿では,ダウンストリームタスクデータセットにアクセスせずに,ダウンストリームアプリケーションにおけるvlmsのゼロショット性能を効率的に評価するための新しいタスクとベンチマークを提案する。
具体的には、新しいタスクlovm: language-only vision model selection(言語のみのビジョンモデル選択)を紹介し、メソッドは、望ましい下流アプリケーションのテキスト記述のみに基づいて、モデル選択とパフォーマンス予測の両方を実行することが期待される。
次に,35個の事前学習VLMと23個のデータセットの地中信頼度評価からなるLOVMベンチマークを導入し,事前学習VLMのランク付けとゼロショット性能の予測を行う。
関連論文リスト
- MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning [28.254318215697527]
VLM(Vision-Language Model)は、多数のパラメータによって計算コストが高い。
VLMの既存の技術はタスク固有であり、新しいタスクごとにネットワークをスクラッチから切り離す必要がある。
タスク非依存型視覚言語計画(TA-Language Pruning:TA-Language Pruning)
TA言語のための第1のグラデーションフリー・プルーニングフレームワークであるMultimodal FlowPruning (MULTIFLOW)を提案する。
論文 参考訳(メタデータ) (2024-04-08T15:51:21Z) - Bridge the Modality and Capacity Gaps in Vision-Language Model Selection [60.049430086731846]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
望まれるゼロショット画像分類戦略は、VLM動物園から最も適切な事前訓練VLMを選択することである。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,これら2つのギャップの負の影響を軽減するために,gAp Bridging (SWAB)によるVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - TAP: Targeted Prompting for Task Adaptive Generation of Textual Training
Instances for Visual Classification [28.72126911321771]
視覚と言語モデル(VLM)は、テキストプロンプトによって記述される潜在的に無制限なカテゴリの視覚的認識を可能にした。
最高の視覚認識性能を得るためには、これらのモデルは下流のタスクのデータ分散をよりよく適合させるためにチューニングが必要である。
論文 参考訳(メタデータ) (2023-09-13T08:59:54Z) - Language Models as Black-Box Optimizers for Vision-Language Models [62.80817942316398]
Webスケールデータセットで事前トレーニングされた視覚言語モデル(VLM)は、最小限のデータで微調整された場合、下流タスクに顕著な機能を示す。
我々は,自然言語のプロンプトを通じてVLMを最適化するためのブラックボックスアプローチを開発することを目指している。
論文 参考訳(メタデータ) (2023-09-12T04:03:41Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - A Comparison of SVM against Pre-trained Language Models (PLMs) for Text
Classification Tasks [1.2934180951771599]
ドメイン固有のコーパスでは、特定のタスクのために事前訓練されたモデルを微調整することで、パフォーマンスが向上することを示した。
3つのパブリックドメインフリーデータセットとドメイン固有の単語を含む実世界のデータセットにおける4つの異なるPLMの性能を比較した。
論文 参考訳(メタデータ) (2022-11-04T16:28:40Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。