論文の概要: SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2402.05935v2
- Date: Wed, 26 Jun 2024 07:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 19:04:48.441651
- Title: SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models
- Title(参考訳): SPHINX-X:マルチモーダル大言語モデルのスケーリングデータとパラメータ
- Authors: Dongyang Liu, Renrui Zhang, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao, Peng Gao,
- Abstract要約: MLLM(Multimodality Large Language Model)シリーズを開発した。
我々は、言語、ビジョン、視覚言語タスクで利用可能なリソースを網羅した包括的なデータセットを組み立てる。
パラメータサイズや多言語能力の異なるMLLMのスペクトルを得る。
- 参考スコア(独自算出の注目度): 97.40590590880144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose SPHINX-X, an extensive Multimodality Large Language Model (MLLM) series developed upon SPHINX. To improve the architecture and training efficiency, we modify the SPHINX framework by removing redundant visual encoders, bypassing fully-padded sub-images with skip tokens, and simplifying multi-stage training into a one-stage all-in-one paradigm. To fully unleash the potential of MLLMs, we assemble a comprehensive multi-domain and multimodal dataset covering publicly available resources in language, vision, and vision-language tasks. We further enrich this collection with our curated OCR intensive and Set-of-Mark datasets, extending the diversity and generality. By training over different base LLMs including TinyLlama1.1B, InternLM2-7B, LLaMA2-13B, and Mixtral8x7B, we obtain a spectrum of MLLMs that vary in parameter size and multilingual capabilities. Comprehensive benchmarking reveals a strong correlation between the multi-modal performance with the data and parameter scales. Code and models are released at https://github.com/Alpha-VLLM/LLaMA2-Accessory
- Abstract(参考訳): SPHINXをベースとしたMLLMシリーズであるSPHINX-Xを提案する。
アーキテクチャとトレーニング効率を改善するため、冗長なビジュアルエンコーダを除去し、完全にパッド化されたサブイメージをスキップトークンで通過させ、マルチステージトレーニングを1段階のオールインワンパラダイムに単純化することで、SPHINXフレームワークを修正した。
MLLMの可能性をフルに解き放つために、言語、ビジョン、ビジョン言語タスクにおいて利用可能なリソースを網羅した、包括的なマルチドメインとマルチモーダルのデータセットを組み立てる。
我々はさらに、このコレクションをOCR集約データセットとSet-of-Markデータセットで強化し、多様性と汎用性を広げます。
TinyLlama1.1B、InternLM2-7B、LLaMA2-13B、Mixtral8x7Bなどの異なるベースLLMのトレーニングにより、パラメータサイズと多言語能力の異なるMLLMのスペクトルを得る。
総合的なベンチマークでは、マルチモーダル性能とデータとパラメータスケールの間に強い相関関係が示されている。
コードとモデルはhttps://github.com/Alpha-VLLM/LLaMA2-Accessoryで公開されている。
関連論文リスト
- OneLLM: One Framework to Align All Modalities with Language [90.14915575477197]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - Meta-learning For Vision-and-language Cross-lingual Transfer [14.594704809280984]
バイソン言語モデルのための新しいメタラーニング微調整フレームワークを提案する。
我々のフレームワークは、現在のPVLMを視覚言語シナリオにおける新しい言語に迅速に適応させる。
本手法は, ゼロショットと少数ショットのクロスランガル転送において, 現在のPVLMの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-24T07:51:42Z) - LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich
Document Understanding [34.42574051786547]
テキスト、レイアウト、画像によるマルチモーダル事前学習は、視覚的にリッチな文書理解タスクのためのSOTA性能を達成している。
視覚的に豊富な文書理解のための言語障壁を橋渡しすることを目的とした多言語文書理解のためのマルチモーダル事前訓練モデルを提示する。
論文 参考訳(メタデータ) (2021-04-18T12:16:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。