論文の概要: Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models
- arxiv url: http://arxiv.org/abs/2305.15023v3
- Date: Tue, 24 Oct 2023 09:34:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 00:33:27.367413
- Title: Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models
- Title(参考訳): Cheap and Quick: 大規模言語モデルのための効率的な視覚言語指導チューニング
- Authors: Gen Luo, Yiyi Zhou, Tianhe Ren, Shengxin Chen, Xiaoshuai Sun, Rongrong
Ji
- Abstract要約: 大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
- 参考スコア(独自算出の注目度): 77.2078051555533
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, growing interest has been aroused in extending the multimodal
capability of large language models (LLMs), e.g., vision-language (VL)
learning, which is regarded as the next milestone of artificial general
intelligence. However, existing solutions are prohibitively expensive, which
not only need to optimize excessive parameters, but also require another
large-scale pre-training before VL instruction tuning. In this paper, we
propose a novel and affordable solution for the effective VL adaption of LLMs,
called Mixture-of-Modality Adaptation (MMA). Instead of using large neural
networks to connect the image encoder and LLM, MMA adopts lightweight modules,
i.e., adapters, to bridge the gap between LLMs and VL tasks, which also enables
the joint optimization of the image and language models. Meanwhile, MMA is also
equipped with a routing algorithm to help LLMs achieve an automatic shift
between single- and multi-modal instructions without compromising their ability
of natural language understanding. To validate MMA, we apply it to a recent LLM
called LLaMA and term this formed large vision-language instructed model as
LaVIN. To validate MMA and LaVIN, we conduct extensive experiments under two
setups, namely multimodal science question answering and multimodal dialogue.
The experimental results not only demonstrate the competitive performance and
the superior training efficiency of LaVIN than existing multimodal LLMs, but
also confirm its great potential as a general-purpose chatbot. More
importantly, the actual expenditure of LaVIN is extremely cheap, e.g., only 1.4
training hours with 3.8M trainable parameters, greatly confirming the
effectiveness of MMA. Our project is released at
https://luogen1996.github.io/lavin.
- Abstract(参考訳): 近年、人工知能の次のマイルストーンと見なされる視覚言語(vl)学習など、大規模言語モデル(llm)のマルチモーダル能力の拡張への関心が高まっている。
しかし、既存のソリューションは非常に高価であり、過剰なパラメータを最適化するだけでなく、VL命令のチューニングの前にも大規模な事前学習が必要である。
本稿では,Mixture-of-Modality Adaptation (MMA)と呼ばれる,LLMの有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAはLLMとVLタスクのギャップを埋めるために、軽量モジュール(アダプタ)を採用する。
一方、MMAは、LLMが自然言語理解能力を損なうことなく、シングルモーダル命令とマルチモーダル命令の自動シフトを実現するためのルーティングアルゴリズムも備えている。
mmaを検証するために、llamaと呼ばれる最近のllmに適用し、これをlavinという大きな視覚言語指示モデルと呼ぶ。
mmaとlavinを検証するために,マルチモーダル科学質問応答とマルチモーダル対話という2つの設定で広範な実験を行った。
実験結果は,既存のマルチモーダルLLMよりもLaVINの競争性能と訓練効率が優れているだけでなく,汎用チャットボットとしての可能性も確認した。
さらに重要なことに、LaVINの実際の支出は極めて安価であり、例えば3.8Mのトレーニング可能なパラメータを持つ訓練時間は1.4時間に過ぎず、MMAの有効性を大きく確認している。
私たちのプロジェクトはhttps://luogen1996.github.io/lavinでリリースしています。
関連論文リスト
- Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - Sight Beyond Text: Multi-Modal Training Enhances LLMs in Truthfulness
and Ethics [32.123919380959485]
MLLM(Multi-modal large language model)は、大規模言語モデル(LLM)に基づいて訓練される。
マルチモーダルなタスクでは優れているが、MLLMの純粋なNLP能力はしばしば過小評価され、テストされていない。
LLMをMLLMに移行するための一般的な戦略である視覚的インストラクションチューニングは、予期せぬ、興味深いことに、改善された真理性と倫理的整合性の両方を達成するのに役立ちます。
論文 参考訳(メタデータ) (2023-09-13T17:57:21Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [57.56695651370155]
我々は、コンシューマハードウェア上で、数百万のトレーニング例を使用して、最初の多言語ビジョン-LLMであるmBLIPを提示する。
我々は視覚と言語を混合したタスクから多言語データを活用し、機械翻訳による高品質な英語データを95言語に翻訳する。
IGLUEベンチマークでは、mBLIPは最先端のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model [60.22693761583569]
パラメータ効率のよいビジュアルインストラクションモデルであるLLaMA-Adapter V2を提案する。
具体的には、より学習可能なパラメータをアンロックすることで、LLaMA-Adapterを初めて拡張する。
第3に、画像テキストペアと命令追従データの合同トレーニングパラダイムを導入する。
論文 参考訳(メタデータ) (2023-04-28T17:59:25Z) - MAPL: Parameter-Efficient Adaptation of Unimodal Pre-Trained Models for
Vision-Language Few-Shot Prompting [9.698144135538378]
凍結した未学習の単調モデルを再使用する,単純かつパラメータ効率のよいMAPLを提案する。
MAPLは、アライメントされた画像テキストデータを用いて、ユニモーダルモデルの表現空間間の軽量なマッピングを学習する。
論文 参考訳(メタデータ) (2022-10-13T17:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。