論文の概要: Pre-Trained Vision-Language Model Selection and Reuse for Downstream Tasks
- arxiv url: http://arxiv.org/abs/2501.18271v1
- Date: Thu, 30 Jan 2025 11:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:12:45.048487
- Title: Pre-Trained Vision-Language Model Selection and Reuse for Downstream Tasks
- Title(参考訳): 下流課題に対する事前学習型ビジョンランゲージモデルの選択と再利用
- Authors: Hao-Zhe Tan, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li,
- Abstract要約: 本稿では、モデルラベル学習(MLL)と呼ばれる、下流タスクのためのVLMの選択と再利用のための新しいパラダイムを提案する。
モデルラベリングプロセスは目標タスクに依存しないため,提案手法は計算効率が高く,成長可能である。
- 参考スコア(独自算出の注目度): 48.67303250592189
- License:
- Abstract: Pre-trained Vision-Language Models (VLMs) are becoming increasingly popular across various visual tasks, and several open-sourced VLM variants have been released. However, selecting the best-performing pre-trained VLM for a specific downstream task is challenging since no single VLM can achieve promising performance on all downstream tasks, and evaluating all available VLMs is impossible due to time and data limitations. To address this problem, this paper proposes a novel paradigm to select and reuse VLM for downstream tasks, called Model Label Learning (MLL). The proposal contains three key modules: \emph{model labeling}, which assigns labels to each VLM to describe their specialty and utility; \emph{model selection}, which matches the requirements of the target task with model labels; and \emph{model reuse}, which applies selected VLMs to the target task in an ensemble manner. The proposal is highly computationally efficient and growable since the model labeling process is completed target task independent and the ability could grow with the number of candidate VLMs. We also introduce a new benchmark for evaluating VLM selection methods, including 49 VLMs and 17 target task datasets. Experimental results clearly demonstrate the effectiveness of the proposed method for selecting and reusing VLMs.
- Abstract(参考訳): VLM(Pre-trained Vision-Language Models)は、様々な視覚タスクで人気が高まり、オープンソースのVLMバージョンがいくつかリリースされている。
しかしながら、特定の下流タスクに対して最高の学習済みVLMを選択することは、単一のVLMがすべての下流タスクで有望な性能を達成できないため困難であり、時間とデータ制限のため、利用可能なすべてのVLMを評価することは不可能である。
そこで本研究では,モデルラベル学習(MLL)と呼ばれる下流タスクに対して,VLMを選択・再利用するための新しいパラダイムを提案する。
この提案には、3つの主要なモジュールが含まれている: \emph{model labeling} は、それぞれのVLMにラベルを割り当て、それぞれの特質とユーティリティを記述する。
モデルラベリングプロセスは目標タスクとは独立して完了し、候補VLMの数に応じて能力が増大する可能性があるため、提案手法は計算効率が高く、成長可能である。
また、49のVLMと17のタスクデータセットを含むVLM選択方法を評価するための新しいベンチマークも導入した。
実験結果から,VLMの選択・再利用における提案手法の有効性が明らかとなった。
関連論文リスト
- Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - The Solution for CVPR2024 Foundational Few-Shot Object Detection Challenge [14.330962576584446]
本稿では,視覚言語モデル(VLM)をオブジェクト検出に活用したFSOD(Foundational Few-Shot Object Detection)タスクの強化手法を提案する。
マルチモーダル大言語モデル(MM-LLM)を統合したVLM+フレームワークを提案する。
これらの参照表現を用いて、トレーニングセット内のすべての画像に対して擬似ラベルを生成し、元のラベル付きデータと組み合わせてVLMを微調整する。
論文 参考訳(メタデータ) (2024-06-18T03:03:02Z) - Bridge the Modality and Capability Gaps in Vision-Language Model Selection [62.26769826687365]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
VLMリソースをより再利用するために、VLM Zooから適切な事前学習VLMを選択するという有望な戦略が提案されている。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,2つのギャップの負の影響を軽減するために,gApブリッジを用いたVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - LOVM: Language-Only Vision Model Selection [13.857583570058392]
言語のみの視覚モデル選択(Language-Only Vision Model Selection)では,モデル選択と性能予測の両方を実行することが期待される。
次に,35個の事前学習されたVLMと23個のデータセットの地上信頼度評価からなるLOVMベンチマークを導入した。
論文 参考訳(メタデータ) (2023-06-15T06:53:05Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - Test-Time Adaptation with CLIP Reward for Zero-Shot Generalization in
Vision-Language Models [76.410400238974]
モデル出力を補正し、モデルが盲目的に自信を持たないようにするためのフィードバック付きTTAを提案する。
CLIPモデルは、TTA中に報酬モデルとして採用され、VLMにフィードバックを提供する。
提案したCLIPフィードバック(RLCF)フレームワークによるテキスト強化学習は非常に柔軟で普遍的である。
論文 参考訳(メタデータ) (2023-05-29T11:03:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。