論文の概要: Template Matters: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training
- arxiv url: http://arxiv.org/abs/2412.08307v1
- Date: Wed, 11 Dec 2024 11:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 23:20:26.665083
- Title: Template Matters: Understanding the Role of Instruction Templates in Multimodal Language Model Evaluation and Training
- Title(参考訳): テンプレート事項:マルチモーダル言語モデルの評価と訓練における指導テンプレートの役割を理解する
- Authors: Shijian Wang, Linxin Song, Jieyu Zhang, Ryotaro Shimizu, Ao Luo, Li Yao, Cunjian Chen, Julian McAuley, Hanqian Wu,
- Abstract要約: 39B以上のテンプレートの組み合わせを生成可能なプログラム型命令テンプレート生成器を提案する。
5つのベンチマークデータセット上の8つのコモンにわたる実験は、テンプレートの感度が高く、テンプレート間のパフォーマンスギャップは少なくとも29%である。
データセットにチューニングされたモデルは、データセットの75倍のスケールでチューニングされた同じスケールと比較して、最高の全体的なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 27.764452541732226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multimodal language models (MLMs) evaluation and training approaches overlook the influence of instruction format, presenting an elephant-in-the-room problem. Previous research deals with this problem by manually crafting instructions, failing to yield significant insights due to limitations in diversity and scalability. In this work, we propose a programmatic instruction template generator capable of producing over 39B unique template combinations by filling randomly sampled positional synonyms into weighted sampled meta templates, enabling us to comprehensively examine the MLM's performance across diverse instruction templates. Our experiments across eight common MLMs on five benchmark datasets reveal that MLMs have high template sensitivities with at most 29% performance gaps between different templates. We further augment the instruction tuning dataset of LLaVA-1.5 with our template generator and perform instruction tuning on LLaVA-1.5-7B and LLaVA-1.5-13B. Models tuned on our augmented dataset achieve the best overall performance when compared with the same scale MLMs tuned on at most 75 times the scale of our augmented dataset, highlighting the importance of instruction templates in MLM training. The code is available at https://github.com/shijian2001/TemplateMatters .
- Abstract(参考訳): 現在のマルチモーダル言語モデル(MLM)の評価とトレーニングアプローチは、命令形式の影響を見落とし、室内でのゾウ問題を提示している。
これまでの研究では、手動で命令を作成することでこの問題に対処しており、多様性とスケーラビリティの制限により、重要な洞察を得られなかった。
本研究では,ランダムにサンプリングされた位置同義語を重み付きメタテンプレートに充填することにより,39B以上の独自のテンプレートの組み合わせを生成可能なプログラム型命令テンプレート生成器を提案する。
5つのベンチマークデータセットを用いた8つのMLM実験の結果,MLMはテンプレート感度が高く,テンプレート間の性能差は少なくとも29%であることがわかった。
さらに、LLaVA-1.5の命令チューニングデータセットをテンプレートジェネレータで拡張し、LLaVA-1.5-7BとLLaVA-1.5-13Bで命令チューニングを行う。
MLMトレーニングにおける命令テンプレートの重要性を強調した上で、当社のデータセットにチューニングされたモデルは、当社のデータセットの75倍のスケールでチューニングされたMLMと比較すると、最高の全体的なパフォーマンスを実現することができる。
コードはhttps://github.com/shijian2001/TemplateMattersで入手できる。
関連論文リスト
- Boosting Large Language Models with Mask Fine-Tuning [60.56962908455601]
Mask Fine-Tuning (MFT)を導入し、モデルの整合性を適切に破壊すると驚くほど性能が向上することを示した。
MFTは様々なドメインやバックボーンで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-03-27T20:17:57Z) - MLLM-Selector: Necessity and Diversity-driven High-Value Data Selection for Enhanced Visual Instruction Tuning [69.7347209018861]
視覚的インストラクションのチューニングに有用なデータを自動的に識別するMLLM-Selectorを提案する。
モデル性能を向上させるために,VITデータプールの各サンプルの必要なスコアを算出し,サンプルのピボットを同定する。
以上の結果から,データ選択における必要条件と多様性の混合の重要性が指摘され,MLLMセレクタの創出につながった。
論文 参考訳(メタデータ) (2025-03-26T12:42:37Z) - Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation [56.75665429851673]
本稿では,人間とLLMの選好アライメントという2つのユニークな視点から導いた,新しい命令キュレーションアルゴリズムを提案する。
実験により,合成マルチモーダル命令を最大90%圧縮することにより,モデル性能の維持や改善が可能であることが示された。
論文 参考訳(メタデータ) (2024-09-27T08:20:59Z) - MIA-Bench: Towards Better Instruction Following Evaluation of Multimodal LLMs [47.94710556156627]
MIA-Benchは、マルチモーダルな大規模言語モデル(MLLM)を、複雑な命令に厳密に準拠する能力に基づいて評価するために設計されたベンチマークである。
私たちのベンチマークでは、400のイメージプロンプトペアで構成されており、それぞれが階層化された命令に対するモデルのコンプライアンスに挑戦するために作られています。
論文 参考訳(メタデータ) (2024-07-01T17:53:35Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Learning to Decode Collaboratively with Multiple Language Models [37.31339648499042]
本稿では,複数の大規模言語モデル (LLM) に,トークンレベルで世代間をインターリーブすることで協調する手法を提案する。
復号化中のトークンレベルのコラボレーションは、各モデルの専門知識を、手元にある特定のタスクに合わせて統合することを可能にする。
論文 参考訳(メタデータ) (2024-03-06T17:23:28Z) - Towards Robust Instruction Tuning on Multimodal Large Language Models [25.506776502317436]
本研究では,マルチモーダルタスクにおいて,INSTRAUGという自動命令拡張手法を導入する。
2つの人気のあるマルチモーダル命令フォローベンチマークの結果、INSTRAUGは12のマルチモーダルタスク間でのMLLM(Multimodal Large Language Model)のアライメントを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2024-02-22T12:35:50Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Mind Your Format: Towards Consistent Evaluation of In-Context Learning Improvements [10.687101698324897]
大規模な言語モデルは、いくつかの例から新しいタスクを解くための驚くべき能力を示している。
プロンプトテンプレート、あるいはインプット例をフォーマットしてプロンプトを取得する方法は、コンテキスト内学習の重要な側面であるが、見過ごされがちである。
テンプレートの貧弱な選択は、最強モデルと推論手法の性能をランダムな推測レベルに低下させることができることを示す。
論文 参考訳(メタデータ) (2024-01-12T18:58:26Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。