Fugu-MT 論文翻訳(概要): InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

論文の概要: InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

arxiv url: http://arxiv.org/abs/2305.06500v1
Date: Thu, 11 May 2023 00:38:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-12 16:26:58.396920
Title: InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
Title（参考訳）: InstructBLIP:インストラクションチューニングを用いた汎用視覚言語モデルを目指して
Authors: Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi
Abstract要約: 我々は,事前学習したBLIP-2モデルに基づいて,視覚言語による指導のチューニングについて検討する。 InstructBLIPモデルは、13の保持されたデータセットすべてに対して、最先端のゼロショットパフォーマンスを実現する。私たちのモデルは、個々の下流タスクに微調整された場合、最先端のパフォーマンスももたらします。
参考スコア（独自算出の注目度）: 43.54069813039309
License: http://creativecommons.org/licenses/by/4.0/
Abstract: General-purpose language models that can solve various language-domain tasks have emerged driven by the pre-training and instruction-tuning pipeline. However, building general-purpose vision-language models is challenging due to the increased task discrepancy introduced by the additional visual input. Although vision-language pre-training has been widely studied, vision-language instruction tuning remains relatively less explored. In this paper, we conduct a systematic and comprehensive study on vision-language instruction tuning based on the pre-trained BLIP-2 models. We gather a wide variety of 26 publicly available datasets, transform them into instruction tuning format and categorize them into two clusters for held-in instruction tuning and held-out zero-shot evaluation. Additionally, we introduce instruction-aware visual feature extraction, a crucial method that enables the model to extract informative features tailored to the given instruction. The resulting InstructBLIP models achieve state-of-the-art zero-shot performance across all 13 held-out datasets, substantially outperforming BLIP-2 and the larger Flamingo. Our models also lead to state-of-the-art performance when finetuned on individual downstream tasks (e.g., 90.7% accuracy on ScienceQA IMG). Furthermore, we qualitatively demonstrate the advantages of InstructBLIP over concurrent multimodal models. All InstructBLIP models have been open-sourced at https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
Abstract（参考訳）: さまざまな言語ドメインタスクを解決可能な汎用言語モデルが,事前トレーニングと命令チューニングパイプラインによって実現されている。しかし,視覚入力によるタスクの差が増大するため,汎用視覚言語モデルの構築は困難である。視覚言語による事前学習は広く研究されているが、視覚言語による指導訓練は比較的少ない。本稿では,事前学習したBLIP-2モデルに基づく視覚言語指導の体系的・包括的研究を行う。我々は26の公開データセットを収集し、それらを命令チューニング形式に変換し、2つのクラスタに分類し、ホールドイン命令チューニングとホールドアウトゼロショット評価を行う。さらに、与えられた命令に合わせて情報的特徴を抽出できる重要な手法である、命令認識型視覚特徴抽出を導入する。結果として得られたInstructBLIPモデルは、13のホールトアウトデータセットすべてで最先端のゼロショット性能を達成し、BLIP-2とより大きなFlamingoを著しく上回っている。我々のモデルは、個々の下流タスク(例えば、ScienceQA IMGの90.7%の精度)で微調整された場合、最先端のパフォーマンスをもたらす。さらに,並列マルチモーダルモデルに対する命令BLIPの利点を質的に示す。 InstructBLIPの全モデルはhttps://github.com/salesforce/LAVIS/tree/main/projects/instructblipでオープンソース化された。

関連論文リスト

Improved Alignment of Modalities in Large Vision Language Models [1.4561960744147884]
本稿では,自動回帰視覚言語モデルの学習戦略を提案する。視覚モデルを言語モデルと整合させるための4つの訓練段階を提案する。また、トランスフォーマーベースの言語モデルをトレーニングするための異なる注意マスクも考案した。
論文参考訳（メタデータ） (2025-03-25T09:59:46Z)
MLAN: Language-Based Instruction Tuning Improves Zero-Shot Generalization of Multimodal Large Language Models [79.0546136194314]
マルチモーダルな大規模言語モデルのゼロショットタスクの一般化を改善するために,新しい命令チューニング手法を提案する。提案手法の有効性を,言語と視覚の両面にまたがる9つの未知のデータセットに対して評価した。
論文参考訳（メタデータ） (2024-11-15T20:09:59Z)
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。 1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文参考訳（メタデータ） (2024-10-07T16:14:05Z)
MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文参考訳（メタデータ） (2024-07-22T17:55:22Z)
Generative Visual Instruction Tuning [11.727612242016871]
本稿では,大規模なマルチモーダルモデルのゼロショット機能を改善するために,自動生成した命令追従データを提案する。 GenLLaVAは、ジェネレーティブな大言語であり、ビジュアルアシスタントである。我々のモデルはLLaVAよりも優れた視覚理解能力を示し、ネイティブマルチモーダルモデルと競合する結果を示す。
論文参考訳（メタデータ） (2024-06-17T07:06:58Z)
Reformulating Vision-Language Foundation Models and Datasets Towards Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。 UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文参考訳（メタデータ） (2023-10-01T12:35:18Z)
What Matters in Training a GPT4-Style Language Model with Multimodal Inputs? [24.676820488258336]
大規模言語モデル(LLM)は、与えられた画像のオープンエンド命令に従う際、例外的なマルチモーダル機能を示す。これらのモデルは、ネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に依存している。本稿では,そのようなモデルの訓練について,定量的かつ質的に,体系的かつ包括的に研究する。
論文参考訳（メタデータ） (2023-07-05T17:44:28Z)
Mixture-of-Experts Meets Instruction Tuning:A Winning Combination for Large Language Models [125.91897197446379]
MoEモデルは高密度モデルよりも命令チューニングの恩恵を受ける。我々の最も強力なモデルであるFLAN-MOE-32Bは、4つのベンチマークタスクにおけるFLAN-PALM-62Bの性能を上回る。
論文参考訳（メタデータ） (2023-05-24T04:22:26Z)
Otter: A Multi-Modal Model with In-Context Instruction Tuning [30.804061018682244]
本研究では,Flamingoモデルの上流型インターリーブ型事前学習データセットを動機として,マルチモーダルモデルにインストラクションチューニングを導入する。次に、OpenFlamingo(DeepMindのFlamingoのオープンソース版)をベースとしたマルチモーダルモデルであるOtterを紹介し、MIMIC-ITでトレーニングし、改善された命令追従能力とコンテキスト内学習を示す。
論文参考訳（メタデータ） (2023-05-05T17:59:46Z)
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。多様な3つの視覚課題に対するUViMの有効性を実証する。
論文参考訳（メタデータ） (2022-05-20T17:47:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。