Fugu-MT 論文翻訳(概要): An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models

論文の概要: An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models

arxiv url: http://arxiv.org/abs/2309.09958v1
Date: Mon, 18 Sep 2023 17:30:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 12:11:34.232584
Title: An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models
Title（参考訳）: スケーリングインストラクタ型大規模マルチモーダルモデルに関する経験的研究
Authors: Yadong Lu, Chunyuan Li, Haotian Liu, Jianwei Yang, Jianfeng Gao, Yelong Shen
Abstract要約: LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。 LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
参考スコア（独自算出の注目度）: 116.50367506746713
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual instruction tuning has recently shown encouraging progress with open-source large multimodal models (LMM) such as LLaVA and MiniGPT-4. However, most existing studies of open-source LMM are performed using models with 13B parameters or smaller. In this paper we present an empirical study of scaling LLaVA up to 33B and 65B/70B, and share our findings from our explorations in image resolution, data mixing and parameter-efficient training methods such as LoRA/QLoRA. These are evaluated by their impact on the multi-modal and language capabilities when completing real-world tasks in the wild. We find that scaling LMM consistently enhances model performance and improves language capabilities, and performance of LoRA/QLoRA tuning of LMM are comparable to the performance of full-model fine-tuning. Additionally, the study highlights the importance of higher image resolutions and mixing multimodal-language data to improve LMM performance, and visual instruction tuning can sometimes improve LMM's pure language capability. We hope that this study makes state-of-the-art LMM research at a larger scale more accessible, thus helping establish stronger baselines for future research. Code and checkpoints will be made public.
Abstract（参考訳）: 近年,LLaVAやMiniGPT-4など,オープンソースの大規模マルチモーダルモデル(LMM)の開発が進められている。しかし、既存のオープンソースのLMMの研究は13Bパラメータ以下のモデルを用いて行われている。本稿では,最大33bおよび65b/70bまでのllavaのスケーリングに関する実証研究を行い,画像解像度,データ混合,lora/qloraなどのパラメータ効率の高いトレーニング手法について検討した。これらは、実世界のタスクを野生で完了する際のマルチモーダルおよび言語能力への影響によって評価される。また,LMMのLRA/QLoRAチューニング性能は,モデルファインチューニングの性能に匹敵するものである。さらに,LMMの性能向上のために画像解像度の向上とマルチモーダル言語データの混合が重要であり,視覚的インストラクションチューニングによりLMMの純粋言語能力の向上が期待できる。この研究によって、より大規模なLMM研究がよりアクセスしやすくなり、将来の研究のベースラインが強化されることを願っている。コードとチェックポイントは公開されます。

関連論文リスト

LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning [39.54891426369773]
モデルのサイズ、アーキテクチャ、パフォーマンスのトレードオフについては、まだ未検討のままです。本稿では,近年の言語モデルと多様な視覚的バックボーンを統合したMLLMの新しいファミリーであるLLaVA-MOREを紹介する。公平な比較を保証するため、すべてのアーキテクチャで一貫して適用される統一的なトレーニングプロトコルを使用します。
論文参考訳（メタデータ） (2025-03-19T18:10:12Z)
Unveiling the Secret Recipe: A Guide For Supervised Fine-Tuning Small LLMs [22.177654792824896]
コスト効率とアクセシビリティのために,小型言語モデル(3Bから7Bパラメータ)に焦点を当てた。オープンソースで事前トレーニングされた4つのモデルに対して,さまざまなトレーニング構成と戦略について検討する。 i) 学習率の低いバッチサイズと組み合わせることで,MMLUやMTBench,Open LLM Leaderboardといったベンチマーク上でのモデルパフォーマンスが向上します。
論文参考訳（メタデータ） (2024-12-17T21:16:59Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
Exploring the Capabilities of Large Multimodal Models on Dense Text [58.82262549456294]
我々は170万の質問応答対を持つDT-VQAデータセットを提案する。本稿では,GPT4V,Gemini,および各種オープンソースLMMの総合評価を行う。自動的にラベル付けされたトレーニングデータセットであっても、モデルパフォーマンスの大幅な改善が達成できる。
論文参考訳（メタデータ） (2024-05-09T07:47:25Z)
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文参考訳（メタデータ） (2024-03-12T04:13:45Z)
TinyLLaVA: A Framework of Small-scale Large Multimodal Models [11.686023770810937]
本研究では,異なる視覚エンコーダ,接続モジュール,言語モデル,トレーニングデータ,トレーニングレシピの効果について検討する。我々は,LLaVA-1.5 や Qwen-VL といった既存の 7B モデルに対して,我々の最良のモデル TinyLLaVA-3.1B を訓練する。
論文参考訳（メタデータ） (2024-02-22T05:05:30Z)
CaMML: Context-Aware Multimodal Learner for Large Models [16.30752006781618]
大規模マルチモーダルモデル(LMM)をチューニングするためのコンテキスト認識型マルチモーダル学習器(CaMML)を導入する。 CaMMLは、マルチモーダルなコンテキストサンプルを大きなモデルにシームレスに統合し、類似したドメイン固有の最新の情報から知識を引き出すことができるように設計されている。 CaMMLに基づく2つのマルチモーダルモデルであるCaMML-7BとCaMML-13Bを開発した。
論文参考訳（メタデータ） (2024-01-06T07:54:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。