論文の概要: Template Matters: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training
- arxiv url: http://arxiv.org/abs/2412.08307v1
- Date: Wed, 11 Dec 2024 11:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:22.669101
- Title: Template Matters: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training
- Title(参考訳): テンプレート事項:マルチモーダル言語モデルの評価と訓練における指導テンプレートの役割を理解する
- Authors: Shijian Wang, Linxin Song, Jieyu Zhang, Ryotaro Shimizu, Ao Luo, Li Yao, Cunjian Chen, Julian McAuley, Hanqian Wu,
- Abstract要約: 39B以上のテンプレートの組み合わせを生成可能なプログラム型命令テンプレート生成器を提案する。
5つのベンチマークデータセット上の8つのコモンにわたる実験は、テンプレートの感度が高く、テンプレート間のパフォーマンスギャップは少なくとも29%である。
データセットにチューニングされたモデルは、データセットの75倍のスケールでチューニングされた同じスケールと比較して、最高の全体的なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 27.764452541732226
- License:
- Abstract: Current multimodal language models (MLMs) evaluation and training approaches overlook the influence of instruction format, presenting an elephant-in-the-room problem. Previous research deals with this problem by manually crafting instructions, failing to yield significant insights due to limitations in diversity and scalability. In this work, we propose a programmatic instruction template generator capable of producing over 39B unique template combinations by filling randomly sampled positional synonyms into weighted sampled meta templates, enabling us to comprehensively examine the MLM's performance across diverse instruction templates. Our experiments across eight common MLMs on five benchmark datasets reveal that MLMs have high template sensitivities with at most 29% performance gaps between different templates. We further augment the instruction tuning dataset of LLaVA-1.5 with our template generator and perform instruction tuning on LLaVA-1.5-7B and LLaVA-1.5-13B. Models tuned on our augmented dataset achieve the best overall performance when compared with the same scale MLMs tuned on at most 75 times the scale of our augmented dataset, highlighting the importance of instruction templates in MLM training. The code is available at https://github.com/shijian2001/TemplateMatters .
- Abstract(参考訳): 現在のマルチモーダル言語モデル(MLM)の評価とトレーニングアプローチは、命令形式の影響を見落とし、室内でのゾウ問題を提示している。
これまでの研究では、手動で命令を作成することでこの問題に対処しており、多様性とスケーラビリティの制限により、重要な洞察を得られなかった。
本研究では,ランダムにサンプリングされた位置同義語を重み付きメタテンプレートに充填することにより,39B以上の独自のテンプレートの組み合わせを生成可能なプログラム型命令テンプレート生成器を提案する。
5つのベンチマークデータセットを用いた8つのMLM実験の結果,MLMはテンプレート感度が高く,テンプレート間の性能差は少なくとも29%であることがわかった。
さらに、LLaVA-1.5の命令チューニングデータセットをテンプレートジェネレータで拡張し、LLaVA-1.5-7BとLLaVA-1.5-13Bで命令チューニングを行う。
MLMトレーニングにおける命令テンプレートの重要性を強調した上で、当社のデータセットにチューニングされたモデルは、当社のデータセットの75倍のスケールでチューニングされたMLMと比較すると、最高の全体的なパフォーマンスを実現することができる。
コードはhttps://github.com/shijian2001/TemplateMattersで入手できる。
関連論文リスト
- Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs [47.94710556156627]
MIA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、複雑な命令に厳密に準拠する能力に基づいて評価するために設計されたベンチマークである。
私たちのベンチマークでは、400のイメージプロンプトペアで構成されており、それぞれが階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
論文 参考訳(メタデータ) (2024-07-01T17:53:35Z) - Learning to Decode Collaboratively with Multiple Language Models [37.31339648499042]
本稿では,複数の大規模言語モデル (LLM) に,トークンレベルで世代間をインターリーブすることで協調する手法を提案する。
復号化中のトークンレベルのコラボレーションは、各モデルの専門知識を、手元にある特定のタスクに合わせて統合することを可能にする。
論文 参考訳(メタデータ) (2024-03-06T17:23:28Z) - Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Multi-modal Preference Alignment Remedies Degradation of Visual Instruction Tuning on Language Models [7.056824589733873]
MLLM(Multi-modal large language model)は、実運用における画像とテキストの相互変換のマルチターンクエリをサポートすることが期待されている。
現在のMLLMは、視覚的な問合せのデータセットで訓練されており、劣化に悩まされる可能性がある。
そこで本研究では,MLLMの言語能力の回復と向上を図った,細粒度アノテーションを用いた蒸留法に基づくマルチモーダルアライメントモデルを提案する。
論文 参考訳(メタデータ) (2024-02-16T18:42:08Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。