論文の概要: Investigating the Scaling Effect of Instruction Templates for Training Multimodal Language Model
- arxiv url: http://arxiv.org/abs/2412.08307v2
- Date: Sun, 06 Apr 2025 14:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 17:33:25.668642
- Title: Investigating the Scaling Effect of Instruction Templates for Training Multimodal Language Model
- Title(参考訳): マルチモーダル言語モデルの訓練における指導テンプレートのスケーリング効果の検討
- Authors: Shijian Wang, Linxin Song, Jieyu Zhang, Ryotaro Shimizu, Jiarui Jin, Ao Luo, Yuan Lu, Li Yao, Cunjian Chen, Julian McAuley, Wentao Zhang, Hanqian Wu,
- Abstract要約: マルチモーダル言語モデル(MLM)のトレーニングアプローチは、命令テンプレートの影響を見落としている。
本研究では,15K以上のユニークな命令テンプレートを生成可能なプログラム型命令テンプレートを提案する。
- 参考スコア(独自算出の注目度): 41.95138752509089
- License:
- Abstract: Current multimodal language model (MLM) training approaches overlook the influence of instruction templates. Previous research deals with this problem by leveraging hand-crafted or model-generated templates, failing to investigate the scaling effect of instruction templates on MLM training. In this work, we propose a programmatic instruction template generator capable of producing over 15K unique instruction templates by filling randomly sampled positional synonyms into weighted sampled meta templates, enabling us to comprehensively explore MLM's performance across various template scales in the training process. Our investigation into scaling instruction templates for MLM training demonstrates that MLM capabilities do not consistently improve with increasing template scale. Instead, optimal performance is achieved at a medium template scale. Models trained with data augmented at the optimal template scale achieve performance gains of up to 10% over those trained on the original data and achieve the best overall performance compared with the similar-scale MLMs tuned on at most 75 times the scale of our augmented dataset. The code will be publicly available at https://github.com/shijian2001/TemplateScaling.
- Abstract(参考訳): 現在のマルチモーダル言語モデル(MLM)のトレーニングは、命令テンプレートの影響を見落としている。
従来の研究では、手作りテンプレートやモデル生成テンプレートを活用することでこの問題に対処し、MLMトレーニングにおける命令テンプレートのスケーリング効果を調査しなかった。
本研究では、ランダムにサンプリングされた位置同義語を重み付けされたメタテンプレートに充填することにより、15K以上のユニークな命令テンプレートを生成することができるプログラム的命令テンプレート生成器を提案する。
MLM学習用テンプレートのスケーリングについて検討した結果,MLMの能力はテンプレートスケールの増加とともに常に改善されないことがわかった。
代わりに、最適なパフォーマンスは中規模テンプレートスケールで達成される。
最適なテンプレートスケールで強化されたデータでトレーニングされたモデルは、元のデータでトレーニングされたモデルよりも最大10%のパフォーマンス向上を実現し、拡張データセットの少なくとも75倍のスケールでチューニングされた類似のスケールのMLMと比較して、最高の全体的なパフォーマンスを達成する。
コードはhttps://github.com/shijian2001/TemplateScaling.comで公開されている。
関連論文リスト
- Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs [47.94710556156627]
MIA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、複雑な命令に厳密に準拠する能力に基づいて評価するために設計されたベンチマークである。
私たちのベンチマークでは、400のイメージプロンプトペアで構成されており、それぞれが階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
論文 参考訳(メタデータ) (2024-07-01T17:53:35Z) - Learning to Decode Collaboratively with Multiple Language Models [37.31339648499042]
本稿では,複数の大規模言語モデル (LLM) に,トークンレベルで世代間をインターリーブすることで協調する手法を提案する。
復号化中のトークンレベルのコラボレーションは、各モデルの専門知識を、手元にある特定のタスクに合わせて統合することを可能にする。
論文 参考訳(メタデータ) (2024-03-06T17:23:28Z) - Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Multi-modal Preference Alignment Remedies Degradation of Visual Instruction Tuning on Language Models [7.056824589733873]
MLLM(Multi-modal large language model)は、実運用における画像とテキストの相互変換のマルチターンクエリをサポートすることが期待されている。
現在のMLLMは、視覚的な問合せのデータセットで訓練されており、劣化に悩まされる可能性がある。
そこで本研究では,MLLMの言語能力の回復と向上を図った,細粒度アノテーションを用いた蒸留法に基づくマルチモーダルアライメントモデルを提案する。
論文 参考訳(メタデータ) (2024-02-16T18:42:08Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。