論文の概要: TinyLLaVA: A Framework of Small-scale Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2402.14289v1
- Date: Thu, 22 Feb 2024 05:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 16:21:52.901084
- Title: TinyLLaVA: A Framework of Small-scale Large Multimodal Models
- Title(参考訳): TinyLLaVA: 小規模大規模マルチモーダルモデルのフレームワーク
- Authors: Baichuan Zhou, Ying Hu, Xi Weng, Junlong Jia, Jie Luo, Xien Liu, Ji
Wu, Lei Huang
- Abstract要約: 本研究では,異なる視覚エンコーダ,接続モジュール,言語モデル,トレーニングデータ,トレーニングレシピの効果について検討する。
我々は,LLaVA-1.5 や Qwen-VL といった既存の 7B モデルに対して,我々の最良のモデル TinyLLaVA-3.1B を訓練する。
- 参考スコア(独自算出の注目度): 11.686023770810937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the TinyLLaVA framework that provides a unified perspective in
designing and analyzing the small-scale Large Multimodal Models (LMMs). We
empirically study the effects of different vision encoders, connection modules,
language models, training data and training recipes. Our extensive experiments
showed that better quality of data combined with better training recipes,
smaller LMMs can consistently achieve on-par performances compared to bigger
LMMs. Under our framework, we train a family of small-scale LMMs. Our best
model, TinyLLaVA-3.1B, achieves better overall performance against existing 7B
models such as LLaVA-1.5 and Qwen-VL. We hope our findings can serve as
baselines for future research in terms of data scaling, training setups and
model selections. Our model weights and codes will be made public.
- Abstract(参考訳): 本稿では,小型大規模マルチモーダルモデル(LMM)の設計と解析において統一的な視点を提供するTinyLLaVAフレームワークを提案する。
我々は、異なる視覚エンコーダ、接続モジュール、言語モデル、トレーニングデータおよびトレーニングレシピの効果を実証研究する。
我々の広範な実験により、より優れたトレーニングレシピと組み合わされたデータの品質、より小さなLMMは、より大きなLMMと比較して一貫してオンパーパフォーマンスを達成することができることがわかった。
私たちのフレームワークでは、小さなLMMのファミリーを訓練します。
我々のベストモデルであるTinyLLaVA-3.1Bは、LLaVA-1.5やQwen-VLといった既存の7Bモデルに対して、全体的なパフォーマンスの向上を実現しています。
当社の調査結果が,データスケーリングやトレーニングセットアップ,モデル選択といった,今後の研究のベースラインとなることを願っています。
私たちのモデルウェイトとコードは公開されます。
関連論文リスト
- xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - LLaVA-Gemma: Accelerating Multimodal Foundation Models with a Compact Language Model [4.6373877301731]
我々は、最近リリースされた大規模言語モデル(LLM)のGemmaファミリで、人気のあるLLaVAフレームワークを使用して、MMFM(Multimodal foundation model)のスイートをトレーニングする。
コネクタの事前訓練,より強力な画像バックボーンの利用,言語バックボーンのサイズ拡大という,3つの設計上の特徴を損なう効果を検証した。
LLaVA-Gemmaと呼ばれる結果のモデルは、評価の配列に対して適度な性能を示すが、現在の大容量SOTAモデルよりは改善されない。
論文 参考訳(メタデータ) (2024-03-29T21:32:50Z) - Efficient Multimodal Learning from Data-centric Perspective [21.35857180519653]
効率的なマルチモーダル学習のためのフレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介する。
実験の結果,Bunny-4B/8Bは複数のベンチマークで最先端の大規模MLLMよりも優れていた。
論文 参考訳(メタデータ) (2024-02-18T10:09:10Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - An Empirical Study of Scaling Instruct-Tuned Large Multimodal Models [116.50367506746713]
LLaVAを33B,65B/70Bまでスケールアップする実験的検討を行った。
LMMのスケーリングはモデルの性能を継続的に向上し、言語機能を改善する。
この研究によって、より大規模で最先端のLMM研究がよりアクセスしやすくなることを願っている。
論文 参考訳(メタデータ) (2023-09-18T17:30:46Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。