論文の概要: Visual Instruction Tuning towards General-Purpose Multimodal Model: A
Survey
- arxiv url: http://arxiv.org/abs/2312.16602v1
- Date: Wed, 27 Dec 2023 14:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 18:37:37.579413
- Title: Visual Instruction Tuning towards General-Purpose Multimodal Model: A
Survey
- Title(参考訳): 汎用マルチモーダルモデルに向けた視覚インストラクションチューニング:調査
- Authors: Jiaxing Huang, Jingyi Zhang, Kai Jiang, Han Qiu and Shijian Lu
- Abstract要約: 従来のコンピュータビジョンは、モデルアーキテクチャで暗黙的に設計されたタスク命令を持つ専用モデルによって、個々のタスクを独立して解決する。
近年,視覚インストラクション・チューニング (VIT) の研究が盛んに行われている。
本研究の目的は,(1)コンピュータビジョンタスクのパラダイムとVIT開発を提示する背景,(2)一般的に使用されるネットワークアーキテクチャ,視覚的命令チューニングフレームワークと目的を導入したVITの基礎,および,設定とタスクの評価,(3)視覚的命令チューニングと評価において一般的に使用されるデータセットの体系的レビューを提供することである。
- 参考スコア(独自算出の注目度): 59.95153883166705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional computer vision generally solves each single task independently
by a dedicated model with the task instruction implicitly designed in the model
architecture, arising two limitations: (1) it leads to task-specific models,
which require multiple models for different tasks and restrict the potential
synergies from diverse tasks; (2) it leads to a pre-defined and fixed model
interface that has limited interactivity and adaptability in following user'
task instructions. To address them, Visual Instruction Tuning (VIT) has been
intensively studied recently, which finetunes a large vision model with
language as task instructions, aiming to learn from a wide range of vision
tasks described by language instructions a general-purpose multimodal model
that can follow arbitrary instructions and thus solve arbitrary tasks specified
by the user. This work aims to provide a systematic review of visual
instruction tuning, covering (1) the background that presents computer vision
task paradigms and the development of VIT; (2) the foundations of VIT that
introduce commonly used network architectures, visual instruction tuning
frameworks and objectives, and evaluation setups and tasks; (3) the commonly
used datasets in visual instruction tuning and evaluation; (4) the review of
existing VIT methods that categorizes them with a taxonomy according to both
the studied vision task and the method design and highlights the major
contributions, strengths, and shortcomings of them; (5) the comparison and
discussion of VIT methods over various instruction-following benchmarks; (6)
several challenges, open directions and possible future works in visual
instruction tuning research.
- Abstract(参考訳): 従来のコンピュータビジョンは、1つのタスクを個別のモデルによって独立に解き、そのタスク命令はモデルアーキテクチャで暗黙的に設計され、2つの制限が生じた:(1)異なるタスクのために複数のモデルを必要とし、多様なタスクの潜在的なシナジーを制限するタスク固有のモデルに繋がる。
これに対処するため、視覚命令チューニング(vit)は近年、言語をタスク命令とする大きな視覚モデルを微調整し、言語指示によって記述される幅広い視覚タスクから学習することを目的としており、任意の命令に従うことができ、ユーザが指定した任意のタスクを解決できる汎用マルチモーダルモデルである。
This work aims to provide a systematic review of visual instruction tuning, covering (1) the background that presents computer vision task paradigms and the development of VIT; (2) the foundations of VIT that introduce commonly used network architectures, visual instruction tuning frameworks and objectives, and evaluation setups and tasks; (3) the commonly used datasets in visual instruction tuning and evaluation; (4) the review of existing VIT methods that categorizes them with a taxonomy according to both the studied vision task and the method design and highlights the major contributions, strengths, and shortcomings of them; (5) the comparison and discussion of VIT methods over various instruction-following benchmarks; (6) several challenges, open directions and possible future works in visual instruction tuning research.
関連論文リスト
- VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning [53.93074108238167]
現在までに最も多種多様なビジュアル・インストラクション・チューニング・データセットであるVision-Flanを構築している。
本稿では、VLMをVision-Flan上で微調整し、さらにGPT-4合成データに基づいて調整する2段階の命令チューニングフレームワークを提案する。
この2段階のチューニングフレームワークは、従来の1段階の視覚的チューニングフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-02-18T19:38:44Z) - Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text.
A Vision-Language-Consistency Analysis of VLLMs and Beyond [7.760124498553333]
視覚言語モデルが連続的・独立的に視覚と言語タスクを実行するかを検討する。
マルチモーダル設定において、異なるモーダル間の能力格差を定量化する体系的枠組みを導入する。
本稿では,視覚関連課題に挑戦するタスクのパフォーマンスを効果的に向上する手法である"Vision Description Prompting"を紹介する。
論文 参考訳(メタデータ) (2023-10-19T06:45:11Z) - MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning [65.60607895153692]
MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
論文 参考訳(メタデータ) (2023-10-14T03:22:07Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Prompt Tuning with Soft Context Sharing for Vision-Language Models [42.61889428498378]
本稿では,複数目的の複数ショットタスクにおいて,事前学習した視覚言語モデルを協調的にチューニングする新しい手法を提案する。
我々は,SoftCPTがシングルタスクのプロンプトチューニング方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-29T10:19:10Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。