論文の概要: An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2309.09958v1
- Date: Mon, 18 Sep 2023 17:30:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 12:11:34.232584
- Title: An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models
- Title(参考訳): スケーリングインストラクタ型大規模マルチモーダルモデルに関する経験的研究
- Authors: Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao,
Yelong Shen
- Abstract要約: LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
- 参考スコア(独自算出の注目度): 116.50367506746713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual instruction tuning has recently shown encouraging progress with
open-source large multimodal models (LMM) such as LLaVA and MiniGPT-4. However,
most existing studies of open-source LMM are performed using models with 13B
parameters or smaller. In this paper we present an empirical study of scaling
LLaVA up to 33B and 65B/70B, and share our findings from our explorations in
image resolution, data mixing and parameter-efficient training methods such as
LoRA/QLoRA. These are evaluated by their impact on the multi-modal and language
capabilities when completing real-world tasks in the wild.
We find that scaling LMM consistently enhances model performance and improves
language capabilities, and performance of LoRA/QLoRA tuning of LMM are
comparable to the performance of full-model fine-tuning. Additionally, the
study highlights the importance of higher image resolutions and mixing
multimodal-language data to improve LMM performance, and visual instruction
tuning can sometimes improve LMM's pure language capability. We hope that this
study makes state-of-the-art LMM research at a larger scale more accessible,
thus helping establish stronger baselines for future research. Code and
checkpoints will be made public.
- Abstract(参考訳): 近年,LLaVAやMiniGPT-4など,オープンソースの大規模マルチモーダルモデル(LMM)の開発が進められている。
しかし、既存のオープンソースのLMMの研究は13Bパラメータ以下のモデルを用いて行われている。
本稿では,最大33bおよび65b/70bまでのllavaのスケーリングに関する実証研究を行い,画像解像度,データ混合,lora/qloraなどのパラメータ効率の高いトレーニング手法について検討した。
これらは、実世界のタスクを野生で完了する際のマルチモーダルおよび言語能力への影響によって評価される。
また,LMMのLRA/QLoRAチューニング性能は,モデルファインチューニングの性能に匹敵するものである。
さらに,LMMの性能向上のために画像解像度の向上とマルチモーダル言語データの混合が重要であり,視覚的インストラクションチューニングによりLMMの純粋言語能力の向上が期待できる。
この研究によって、より大規模なLMM研究がよりアクセスしやすくなり、将来の研究のベースラインが強化されることを願っている。
コードとチェックポイントは公開されます。
関連論文リスト
- Lumen: Unleashing Versatile Vision-Centric Capabilities of Large
Multimodal Models [92.68883571206032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。
LumenはCOCO検出ベンチマークで既存のLMMベースのアプローチをはるかに上回り、視覚的なタスクにシームレスなスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - TinyLLaVA: A Framework of Small-scale Large Multimodal Models [11.686023770810937]
本研究では,異なる視覚エンコーダ,接続モジュール,言語モデル,トレーニングデータ,トレーニングレシピの効果について検討する。
我々は,LLaVA-1.5 や Qwen-VL といった既存の 7B モデルに対して,我々の最良のモデル TinyLLaVA-3.1B を訓練する。
論文 参考訳(メタデータ) (2024-02-22T05:05:30Z) - Enhancing Multimodal Large Language Models with Vision Detection Models:
An Empirical Study [34.94523378724141]
本稿では,SOTA(State-of-the-art Object Detection)と光文字認識モデルを用いたMLLMの強化に関する実証的研究を行う。
我々は,LLaVA-1.5,DINO,PaddleOCRv2などのモデルを用いて系統的な実験を行い,MLLMの性能を向上するだけでなく,元の強みも維持することを示した。
その結果、MLLMは10ベンチマーク中9ベンチマークでSOTAモデルを上回っ、正規化平均スコアで最大12.99%向上した。
論文 参考訳(メタデータ) (2024-01-31T16:38:32Z) - MM-LLMs: Recent Advances in MultiModal Large Language Models [51.52063849558428]
過去1年間で、MM-LLM(MultiModal Large Language Models)が大幅に進歩している。
MM-LLMのさらなる研究を促進するための総合的な調査を行う。
本稿では,主要なベンチマークで選択したMM-LLMの性能を概観し,MM-LLMの有効性を高めるための鍵となるトレーニングレシピを要約する。
論文 参考訳(メタデータ) (2024-01-24T17:10:45Z) - CaMML: Context-Aware Multimodal Learner for Large Models [17.49545692638154]
大規模マルチモーダルモデル(LMM)をチューニングするためのコンテキスト認識型マルチモーダル学習器(CaMML)を導入する。
CaMMLは、マルチモーダルなコンテキストサンプルを大きなモデルにシームレスに統合するように設計されている。
CaMMLをベースとした2つのマルチモーダルモデルであるCaMML-7BとCaMML-13Bを開発した。
論文 参考訳(メタデータ) (2024-01-06T07:54:58Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [50.12526092423589]
もっとも先進的なLMMでさえ、構成的視覚的推論の側面を捉えるのに苦戦している。
本稿では,新しいゼロショット・チェーン・オブ・ノート法であるコンポジション・チェーン・オブ・ノート(CCoT)を提案する。
具体的には、まずLMMを用いてSGを生成し、次にそのSGをプロンプトに使用して応答を生成する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z) - Teaching Language Models to Self-Improve through Interactive
Demonstrations [90.05698053752806]
大規模言語モデルの自己改善能力は欠如しており、より小さなモデルで学ぶことは困難である。
このような自己改善能力を持つ小型モデルのトレーニングアルゴリズムであるTriPosTを導入する。
我々は,LLaMA-7bの算数および推論タスクの性能を最大7.13%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:11:04Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。