論文の概要: InstructBLIP: Towards General-purpose Vision-Language Models with
Instruction Tuning
- arxiv url: http://arxiv.org/abs/2305.06500v1
- Date: Thu, 11 May 2023 00:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 16:26:58.396920
- Title: InstructBLIP: Towards General-purpose Vision-Language Models with
Instruction Tuning
- Title(参考訳): InstructBLIP:インストラクションチューニングを用いた汎用視覚言語モデルを目指して
- Authors: Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi
Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi
- Abstract要約: 我々は,事前学習したBLIP-2モデルに基づいて,視覚言語による指導のチューニングについて検討する。
InstructBLIPモデルは、13の保持されたデータセットすべてに対して、最先端のゼロショットパフォーマンスを実現する。
私たちのモデルは、個々の下流タスクに微調整された場合、最先端のパフォーマンスももたらします。
- 参考スコア(独自算出の注目度): 43.54069813039309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose language models that can solve various language-domain tasks
have emerged driven by the pre-training and instruction-tuning pipeline.
However, building general-purpose vision-language models is challenging due to
the increased task discrepancy introduced by the additional visual input.
Although vision-language pre-training has been widely studied, vision-language
instruction tuning remains relatively less explored. In this paper, we conduct
a systematic and comprehensive study on vision-language instruction tuning
based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly
available datasets, transform them into instruction tuning format and
categorize them into two clusters for held-in instruction tuning and held-out
zero-shot evaluation. Additionally, we introduce instruction-aware visual
feature extraction, a crucial method that enables the model to extract
informative features tailored to the given instruction. The resulting
InstructBLIP models achieve state-of-the-art zero-shot performance across all
13 held-out datasets, substantially outperforming BLIP-2 and the larger
Flamingo. Our models also lead to state-of-the-art performance when finetuned
on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG).
Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over
concurrent multimodal models. All InstructBLIP models have been open-sourced at
https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
- Abstract(参考訳): さまざまな言語ドメインタスクを解決可能な汎用言語モデルが,事前トレーニングと命令チューニングパイプラインによって実現されている。
しかし,視覚入力によるタスクの差が増大するため,汎用視覚言語モデルの構築は困難である。
視覚言語による事前学習は広く研究されているが、視覚言語による指導訓練は比較的少ない。
本稿では,事前学習したBLIP-2モデルに基づく視覚言語指導の体系的・包括的研究を行う。
我々は26の公開データセットを収集し、それらを命令チューニング形式に変換し、2つのクラスタに分類し、ホールドイン命令チューニングとホールドアウトゼロショット評価を行う。
さらに、与えられた命令に合わせて情報的特徴を抽出できる重要な手法である、命令認識型視覚特徴抽出を導入する。
結果として得られたInstructBLIPモデルは、13のホールトアウトデータセットすべてで最先端のゼロショット性能を達成し、BLIP-2とより大きなFlamingoを著しく上回っている。
我々のモデルは、個々の下流タスク(例えば、ScienceQA IMGの90.7%の精度)で微調整された場合、最先端のパフォーマンスをもたらす。
さらに,並列マルチモーダルモデルに対する命令BLIPの利点を質的に示す。
InstructBLIPの全モデルはhttps://github.com/salesforce/LAVIS/tree/main/projects/instructblipでオープンソース化された。
関連論文リスト
- MLAN: Language-Based Instruction Tuning Improves Zero-Shot Generalization of Multimodal Large Language Models [79.0546136194314]
マルチモーダルな大規模言語モデルのゼロショットタスクの一般化を改善するために,新しい命令チューニング手法を提案する。
提案手法の有効性を,言語と視覚の両面にまたがる9つの未知のデータセットに対して評価した。
論文 参考訳(メタデータ) (2024-11-15T20:09:59Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。
1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - What Matters in Training a GPT4-Style Language Model with Multimodal
Inputs? [24.676820488258336]
大規模言語モデル(LLM)は、与えられた画像のオープンエンド命令に従う際、例外的なマルチモーダル機能を示す。
これらのモデルは、ネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に依存している。
本稿では,そのようなモデルの訓練について,定量的かつ質的に,体系的かつ包括的に研究する。
論文 参考訳(メタデータ) (2023-07-05T17:44:28Z) - Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for
Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。
我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文 参考訳(メタデータ) (2023-05-24T04:22:26Z) - Otter: A Multi-Modal Model with In-Context Instruction Tuning [30.804061018682244]
本研究では,Flamingoモデルの上流型インターリーブ型事前学習データセットを動機として,マルチモーダルモデルにインストラクションチューニングを導入する。
次に、OpenFlamingo(DeepMindのFlamingoのオープンソース版)をベースとしたマルチモーダルモデルであるOtterを紹介し、MIMIC-ITでトレーニングし、改善された命令追従能力とコンテキスト内学習を示す。
論文 参考訳(メタデータ) (2023-05-05T17:59:46Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。