Fugu-MT 論文翻訳(概要): Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models

論文の概要: Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models

arxiv url: http://arxiv.org/abs/2305.15023v3
Date: Tue, 24 Oct 2023 09:34:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 00:33:27.367413
Title: Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large Language Models
Title（参考訳）: Cheap and Quick: 大規模言語モデルのための効率的な視覚言語指導チューニング
Authors: Gen Luo, Yiyi Zhou, Tianhe Ren, Shengxin Chen, Xiaoshuai Sun, Rongrong Ji
Abstract要約: 大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。 MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
参考スコア（独自算出の注目度）: 77.2078051555533
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recently, growing interest has been aroused in extending the multimodal capability of large language models (LLMs), e.g., vision-language (VL) learning, which is regarded as the next milestone of artificial general intelligence. However, existing solutions are prohibitively expensive, which not only need to optimize excessive parameters, but also require another large-scale pre-training before VL instruction tuning. In this paper, we propose a novel and affordable solution for the effective VL adaption of LLMs, called Mixture-of-Modality Adaptation (MMA). Instead of using large neural networks to connect the image encoder and LLM, MMA adopts lightweight modules, i.e., adapters, to bridge the gap between LLMs and VL tasks, which also enables the joint optimization of the image and language models. Meanwhile, MMA is also equipped with a routing algorithm to help LLMs achieve an automatic shift between single- and multi-modal instructions without compromising their ability of natural language understanding. To validate MMA, we apply it to a recent LLM called LLaMA and term this formed large vision-language instructed model as LaVIN. To validate MMA and LaVIN, we conduct extensive experiments under two setups, namely multimodal science question answering and multimodal dialogue. The experimental results not only demonstrate the competitive performance and the superior training efficiency of LaVIN than existing multimodal LLMs, but also confirm its great potential as a general-purpose chatbot. More importantly, the actual expenditure of LaVIN is extremely cheap, e.g., only 1.4 training hours with 3.8M trainable parameters, greatly confirming the effectiveness of MMA. Our project is released at https://luogen1996.github.io/lavin.
Abstract（参考訳）: 近年、人工知能の次のマイルストーンと見なされる視覚言語(vl)学習など、大規模言語モデル(llm)のマルチモーダル能力の拡張への関心が高まっている。しかし、既存のソリューションは非常に高価であり、過剰なパラメータを最適化するだけでなく、VL命令のチューニングの前にも大規模な事前学習が必要である。本稿では,Mixture-of-Modality Adaptation (MMA)と呼ばれる,LLMの有効なVL適応のための,新規で安価なソリューションを提案する。画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAはLLMとVLタスクのギャップを埋めるために、軽量モジュール(アダプタ)を採用する。一方、MMAは、LLMが自然言語理解能力を損なうことなく、シングルモーダル命令とマルチモーダル命令の自動シフトを実現するためのルーティングアルゴリズムも備えている。 mmaを検証するために、llamaと呼ばれる最近のllmに適用し、これをlavinという大きな視覚言語指示モデルと呼ぶ。 mmaとlavinを検証するために,マルチモーダル科学質問応答とマルチモーダル対話という2つの設定で広範な実験を行った。実験結果は,既存のマルチモーダルLLMよりもLaVINの競争性能と訓練効率が優れているだけでなく,汎用チャットボットとしての可能性も確認した。さらに重要なことに、LaVINの実際の支出は極めて安価であり、例えば3.8Mのトレーニング可能なパラメータを持つ訓練時間は1.4時間に過ぎず、MMAの有効性を大きく確認している。私たちのプロジェクトはhttps://luogen1996.github.io/lavinでリリースしています。

関連論文リスト

Be My Eyes: Extending Large Language Models to New Modalities Through Multi-Agent Collaboration [35.429026246760635]
BeMyEyesは、LLM(Large Language Models)をマルチモーダル推論に拡張するためのモジュラーフレームワークである。知覚と推論エージェントの相補的な強みを組み合わせることで、BeMyEyesは大規模なマルチモーダルモデルをトレーニングする必要がなくなる。実験により,LLMのマルチモーダル推論能力の開放が確認できた。
論文参考訳（メタデータ） (2025-11-24T18:55:16Z)
Training-Free Mitigation of Language Reasoning Degradation After Multimodal Instruction Tuning [9.824152397546719]
マルチモーダルモデルは通常、強力な大規模言語モデル(LLM)とビジョンエンコーダを組み合わせて、命令チューニングを通じてマルチモーダルデータで訓練される。言語推論性能に対するマルチモーダル・インストラクション・チューニングの効果について検討する。
論文参考訳（メタデータ） (2024-12-04T16:56:20Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [40.74693126923826]
MLLM(Multimodal Large Language Models)は近年,知覚能力や推論能力が著しく向上している。イメージレベルの監督を施したトレーニングアダプタは、しばしば重大なミスアライメントをもたらす。本稿では,視覚言語による事前学習モデルを活用したトークンレベルのアライメント手法であるSupervised Embedding Alignment (SEA)を紹介する。
論文参考訳（メタデータ） (2024-08-21T17:58:02Z)
MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。 MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文参考訳（メタデータ） (2024-08-07T02:28:37Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models [70.25499865569353]
本稿では,プロジェクタとLLMパラメータの適応的チューニングを含むHyperLLaVAと,動的ビジュアルエキスパートと言語エキスパートを紹介する。 MME,MMBench,SEED-Bench,LLaVA-Benchなど,既存のMLLMベンチマークではLLaVAを大きく上回っている。
論文参考訳（メタデータ） (2024-03-20T09:42:43Z)
InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。 InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-12T09:58:16Z)
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model [60.22693761583569]
パラメータ効率のよいビジュアルインストラクションモデルであるLLaMA-Adapter V2を提案する。具体的には、より学習可能なパラメータをアンロックすることで、LLaMA-Adapterを初めて拡張する。第3に、画像テキストペアと命令追従データの合同トレーニングパラダイムを導入する。
論文参考訳（メタデータ） (2023-04-28T17:59:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。