論文の概要: LOVM: Language-Only Vision Model Selection
- arxiv url: http://arxiv.org/abs/2306.08893v1
- Date: Thu, 15 Jun 2023 06:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 16:13:17.269422
- Title: LOVM: Language-Only Vision Model Selection
- Title(参考訳): LOVM:言語のみのビジョンモデル選択
- Authors: Orr Zohar, Shih-Cheng Huang, Kuan-Chieh Wang, Serena Yeung
- Abstract要約: 言語のみの視覚モデル選択(Language-Only Vision Model Selection)では,モデル選択と性能予測の両方を実行することが期待される。
次に,35個の事前学習されたVLMと23個のデータセットの地上信頼度評価からなるLOVMベンチマークを導入した。
- 参考スコア(独自算出の注目度): 13.857583570058392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained multi-modal vision-language models (VLMs) are becoming
increasingly popular due to their exceptional performance on downstream vision
applications, particularly in the few- and zero-shot settings. However,
selecting the best-performing VLM for some downstream applications is
non-trivial, as it is dataset and task-dependent. Meanwhile, the exhaustive
evaluation of all available VLMs on a novel application is not only time and
computationally demanding but also necessitates the collection of a labeled
dataset for evaluation. As the number of open-source VLM variants increases,
there is a need for an efficient model selection strategy that does not require
access to a curated evaluation dataset. This paper proposes a novel task and
benchmark for efficiently evaluating VLMs' zero-shot performance on downstream
applications without access to the downstream task dataset. Specifically, we
introduce a new task LOVM: Language-Only Vision Model Selection, where methods
are expected to perform both model selection and performance prediction based
solely on a text description of the desired downstream application. We then
introduced an extensive LOVM benchmark consisting of ground-truth evaluations
of 35 pre-trained VLMs and 23 datasets, where methods are expected to rank the
pre-trained VLMs and predict their zero-shot performance.
- Abstract(参考訳): 事前訓練されたマルチモーダル視覚言語モデル(VLM)は、下流の視覚アプリケーション、特に少数およびゼロショット設定における例外的な性能のために人気が高まっている。
しかしながら、いくつかの下流アプリケーションで最高のパフォーマンスのVLMを選択することは、データセットとタスク依存であるため、簡単ではない。
一方、新しいアプリケーション上で利用可能なすべてのVLMの徹底的な評価は、時間と計算的な要求だけでなく、ラベル付きデータセットの収集も必要である。
オープンソースVLMの変種数が増加するにつれて、キュレートされた評価データセットへのアクセスを必要としない効率的なモデル選択戦略が必要である。
本稿では,ダウンストリームタスクデータセットにアクセスせずに,ダウンストリームアプリケーションにおけるvlmsのゼロショット性能を効率的に評価するための新しいタスクとベンチマークを提案する。
具体的には、新しいタスクlovm: language-only vision model selection(言語のみのビジョンモデル選択)を紹介し、メソッドは、望ましい下流アプリケーションのテキスト記述のみに基づいて、モデル選択とパフォーマンス予測の両方を実行することが期待される。
次に,35個の事前学習VLMと23個のデータセットの地中信頼度評価からなるLOVMベンチマークを導入し,事前学習VLMのランク付けとゼロショット性能の予測を行う。
関連論文リスト
- Active Prompt Learning with Vision-Language Model Priors [9.173468790066956]
視覚言語モデルの事前学習画像とテキストエンコーダを利用するクラス誘導クラスタリングを提案する。
適応型クラスワイドしきい値に基づく予算削減型選択クエリを提案する。
論文 参考訳(メタデータ) (2024-11-23T02:34:33Z) - DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark [11.633202976929873]
本稿では,データ拡張とデータ混合戦略を用いて,高品質なリモートセンシングLVLMデータセットDDFAVを提案する。
次に、提案したデータセットから選択した高品質なリモートセンシング画像に基づいて、トレーニング命令セットを生成する。
最後に、提案したデータセットに基づいて、リモートセンシングによるLVLMの幻覚評価手法RSPOPEを開発し、異なるLVLMのゼロショット機能を評価する。
論文 参考訳(メタデータ) (2024-11-05T02:03:12Z) - Active Learning for Vision-Language Models [29.309503214127016]
視覚言語モデル(VLM)のゼロショット分類性能を向上させる新しいアクティブラーニング(AL)フレームワークを提案する。
提案手法はまず, VLMの予測エントロピーを校正し, 自己不確かさと隣接認識の不確実性の組み合わせを用いて, 有効試料選択のための信頼性のある不確実性尺度を算出する。
提案手法は,複数の画像分類データセットにおいて,既存のAL手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T16:25:50Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - RAVEN: Multitask Retrieval Augmented Vision-Language Learning [5.1583788731239455]
世界中の知識をエンコードする大規模言語モデルのスケーリングは持続不可能であり、リソースバリアが悪化している。
Retrieval-Augmented Generation (RAG) は潜在的な解決策を示すが、その視覚言語モデル(VLM)への応用は検討中である。
本稿では,効率的なタスク特化微調整により,ベースVLMを強化した検索拡張VLMフレームワークであるRAVENを紹介する。
論文 参考訳(メタデータ) (2024-06-27T13:08:35Z) - Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。