論文の概要: From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2410.06456v1
- Date: Wed, 9 Oct 2024 01:24:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:38:53.423477
- Title: From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning
- Title(参考訳): ジェネラリストからスペシャリストへ:タスク特異的ビジュアルインストラクションチューニングによる視覚言語モデルへの適応
- Authors: Yang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu,
- Abstract要約: 大きな視覚言語モデル(VLM)は、大きな言語モデルと視覚エンコーダを組み合わせて、様々なタスクにおける約束を示す。
タスク特化モデル(TSM)を統合することで、VLMのタスク特化性を高める新しいフレームワークであるVITaskを紹介する。
- 参考スコア(独自算出の注目度): 26.21049702284394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision language models (VLMs) combine large language models with vision encoders, demonstrating promise across various tasks. However, they often underperform in task-specific applications due to domain gaps between pre-training and fine-tuning. We introduce VITask, a novel framework that enhances task-specific adaptability of VLMs by integrating task-specific models (TSMs). VITask employs three key strategies: exemplar prompting (EP), response distribution alignment (RDA), and contrastive response tuning (CRT) to improve the task-specific performance of VLMs by adjusting their response distributions. EP allows TSM features to guide VLMs, while RDA enables VLMs to adapt without TSMs during inference by learning from exemplar-prompted models. CRT further optimizes the ranking of correct image-response pairs, thereby reducing the risk of generating undesired responses. Experiments on 12 medical diagnosis datasets across 9 imaging modalities show that VITask outperforms both vanilla instruction-tuned VLMs and TSMs, showcasing its ability to integrate complementary features from both models effectively. Additionally, VITask offers practical advantages such as flexible TSM integration and robustness to incomplete instructions, making it a versatile and efficient solution for task-specific VLM tuning. Our code are available at https://github.com/baiyang4/VITask.
- Abstract(参考訳): 大きな視覚言語モデル(VLM)は、大きな言語モデルと視覚エンコーダを組み合わせて、様々なタスクにおける約束を示す。
しかし、プレトレーニングと微調整のドメインギャップのため、タスク固有のアプリケーションではパフォーマンスが劣ることが多い。
本稿では,タスク特化モデル(TSM)を統合することで,VLMのタスク特化性を高める新しいフレームワークであるVITaskを紹介する。
VITaskは、EP(Exemplar prompting)、RDA(Response Distribution alignment)、CRT(Contentive Response tuning)の3つの主要な戦略を用いて、VLMのタスク固有の性能を改善する。
EP は TSM 機能を VLM のガイドに、RDA は VLM を TSM の推論なしで適用可能にする。
CRTはさらに、正しい画像応答ペアのランク付けを最適化し、望ましくない応答を発生させるリスクを低減する。
9つの画像モダリティにまたがる12の診断データセットの実験では、VITaskはVLMとTSMの両方に優れており、両モデルの補完機能を効果的に統合する能力を示している。
さらに、VITaskは柔軟なTSM統合や不完全な命令に対する堅牢性といった実用的な利点を提供しており、タスク固有のVLMチューニングのための汎用的で効率的なソリューションとなっている。
私たちのコードはhttps://github.com/baiyang4/VITask.comから入手可能です。
関連論文リスト
- Rethinking VLMs and LLMs for Image Classification [6.550471260627169]
大きな言語モデル(LLM)は、新しい機能を実現するために、Visual Language Models(VLM)と統合されつつある。
オブジェクト認識やシーン認識では,LLMを使わないVLMの方が,VLMよりも優れた性能が得られることを示す。
本稿では,視覚的タスクをタスクに適したモデルに効率的にルーティングする,比較的小さなLCMを含む軽量な修正法を提案する。
論文 参考訳(メタデータ) (2024-10-03T23:40:21Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。
本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。
この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-18T19:38:44Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - A Continual Learning Paradigm for Non-differentiable Visual Programming
Frameworks on Visual Reasoning Tasks [51.053901491986025]
様々な視覚的推論タスクにまたがって,VisProgの継続的学習パラダイムを提案する。
我々のCLVPは、よく訓練されたタスク固有モデルの視覚的サブモジュールに、段階的に、そして、アンチフォッゲッティングな方法で蒸留する。
論文 参考訳(メタデータ) (2023-09-18T14:28:47Z) - Adapting Pre-trained Language Models to Vision-Language Tasks via
Dynamic Visual Prompting [83.21164539349273]
事前学習型言語モデル (PLM) はマルチメディア研究においてその役割を担っている。
本稿では,視覚言語推論タスクのスタンドアロンモデルとしてのPLMの探索に焦点をあてる。
ダイナミックビジュアル・プロンプティング(DVP)と呼ばれるPLMのための新しいトランスファー学習手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T07:19:28Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Understanding and Improving Information Transfer in Multi-Task Learning [14.43111978531182]
すべてのタスクに対して共有モジュール,各タスクに対して別個の出力モジュールを備えたアーキテクチャについて検討する。
タスクデータ間の不一致が負の転送(または性能の低下)を引き起こし、ポジティブな転送に十分な条件を提供することを示す。
理論的洞察から着想を得た結果,タスクの埋め込みレイヤの整合がマルチタスクトレーニングやトランスファー学習のパフォーマンス向上につながることが示された。
論文 参考訳(メタデータ) (2020-05-02T23:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。