論文の概要: MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
- arxiv url: http://arxiv.org/abs/2409.20566v1
- Date: Mon, 30 Sep 2024 17:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 01:35:17.300780
- Title: MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning
- Title(参考訳): MM1.5:マルチモーダルLLMファインチューニングの方法, 分析, インサイト
- Authors: Haotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang,
- Abstract要約: MLLM(Multimodal large language model)の新しいファミリーであるMM1.5を提案する。
我々のモデルは1Bから30Bのパラメータで、密度と混合スペクトル(MoE)の両方を含む。
最終設計を知らせるトレーニングプロセスと決定について、詳細な洞察を提供する。
- 参考スコア(独自算出の注目度): 74.34171839925114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MM1.5, a new family of multimodal large language models (MLLMs) designed to enhance capabilities in text-rich image understanding, visual referring and grounding, and multi-image reasoning. Building upon the MM1 architecture, MM1.5 adopts a data-centric approach to model training, systematically exploring the impact of diverse data mixtures across the entire model training lifecycle. This includes high-quality OCR data and synthetic captions for continual pre-training, as well as an optimized visual instruction-tuning data mixture for supervised fine-tuning. Our models range from 1B to 30B parameters, encompassing both dense and mixture-of-experts (MoE) variants, and demonstrate that careful data curation and training strategies can yield strong performance even at small scales (1B and 3B). Additionally, we introduce two specialized variants: MM1.5-Video, designed for video understanding, and MM1.5-UI, tailored for mobile UI understanding. Through extensive empirical studies and ablations, we provide detailed insights into the training processes and decisions that inform our final designs, offering valuable guidance for future research in MLLM development.
- Abstract(参考訳): MM1.5は,テキストに富んだ画像理解,視覚的参照とグラウンド,マルチイメージ推論の能力向上を目的とした,マルチモーダルな大規模言語モデル(MLLM)の新たなファミリーである。
MM1アーキテクチャを基盤として、MM1.5はモデルトレーニングにデータ中心のアプローチを採用し、モデルトレーニングライフサイクル全体にわたってさまざまなデータ混在の影響を体系的に調査する。
これには、高品質なOCRデータと連続的な事前トレーニングのための合成キャプション、教師付き微調整のための最適化されたビジュアル命令-チューニングデータミックスが含まれる。
我々のモデルは1Bから30Bのパラメータで、密集型と混合型(MoE)の両方を包含し、注意深いデータキュレーションとトレーニング戦略が、小規模(1Bと3B)でも高いパフォーマンスが得られることを示した。
さらに、ビデオ理解用に設計されたMM1.5-Videoと、モバイルUI理解用に最適化されたMM1.5-UIの2つの特殊なバリエーションを紹介した。
広範囲にわたる実証的研究と改善を通じて、最終設計を通知するトレーニングプロセスと決定に関する詳細な知見を提供し、MLLM開発における今後の研究のための貴重なガイダンスを提供する。
関連論文リスト
- Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training [103.72844619581811]
MLLM(Performant Multimodal Large Language Models)を構築する。
特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。
本稿では,画像キャプチャ,インターリーブ画像テキスト,テキストのみのデータを組み合わせた大規模マルチモーダル事前学習について述べる。
論文 参考訳(メタデータ) (2024-03-14T17:51:32Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - SVIT: Scaling up Visual Instruction Tuning [26.794950789335402]
我々は,会話質問応答(QA)ペアの1.6M,QAペアの1.6M,QAペアの1.0M,詳細な画像記述の106Kを含む4200万の視覚的インストラクションチューニングデータを構築した。
実験では、提案したデータセットに基づいてトレーニングされたSVIT-v1.5が、一般的なベンチマークで最先端のマルチモーダル大規模言語モデルを上回っていることを確認した。
論文 参考訳(メタデータ) (2023-07-09T03:25:14Z) - What Matters in Training a GPT4-Style Language Model with Multimodal
Inputs? [24.676820488258336]
大規模言語モデル(LLM)は、与えられた画像のオープンエンド命令に従う際、例外的なマルチモーダル機能を示す。
これらのモデルは、ネットワーク構造、トレーニングデータ、トレーニング戦略などの設計選択に依存している。
本稿では,そのようなモデルの訓練について,定量的かつ質的に,体系的かつ包括的に研究する。
論文 参考訳(メタデータ) (2023-07-05T17:44:28Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。