論文の概要: MINT: Multimodal Instruction Tuning with Multimodal Interaction Grouping
- arxiv url: http://arxiv.org/abs/2506.02308v1
- Date: Mon, 02 Jun 2025 22:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.107302
- Title: MINT: Multimodal Instruction Tuning with Multimodal Interaction Grouping
- Title(参考訳): MINT:マルチモーダルインタラクショングループによるマルチモーダルインストラクションチューニング
- Authors: Xiaojun Shan, Qi Cao, Xing Han, Haofei Yu, Paul Pu Liang,
- Abstract要約: 我々は,マルチモーダルインタラクションのタイプに基づいた,シンプルながら驚くほど効果的なタスクグループ化戦略であるMINTを紹介する。
提案手法は,マルチモーダル命令チューニングにおいて,既存のタスクグループ化ベースラインを大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 28.653290360671175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal foundation models have achieved state-of-the-art performance across a range of tasks. These breakthroughs are largely driven by new pre-training paradigms that leverage large-scale, unlabeled multimodal data, followed by instruction fine-tuning on curated labeled datasets and high-quality prompts. While there is growing interest in scaling instruction fine-tuning to ever-larger datasets in both quantity and scale, our findings reveal that simply increasing the number of instruction-tuning tasks does not consistently yield better performance. Instead, we observe that grouping tasks by the common interactions across modalities, such as discovering redundant shared information, prioritizing modality selection with unique information, or requiring synergistic fusion to discover new information from both modalities, encourages the models to learn transferrable skills within a group while suppressing interference from mismatched tasks. To this end, we introduce MINT, a simple yet surprisingly effective task-grouping strategy based on the type of multimodal interaction. We demonstrate that the proposed method greatly outperforms existing task grouping baselines for multimodal instruction tuning, striking an effective balance between generalization and specialization.
- Abstract(参考訳): マルチモーダル基礎モデルの最近の進歩は、様々なタスクで最先端のパフォーマンスを実現している。
これらのブレークスルーは、大規模でラベルなしのマルチモーダルデータを活用する新しい事前トレーニングパラダイムと、キュレートされたラベル付きデータセットと高品質なプロンプトによる命令微調整によって大きく推進される。
命令の微調整には量と規模の両方で関心が高まりつつあるが、単に命令の微調整タスクの数を増やせば、パフォーマンスが常に向上するわけではないことが判明した。
その代わりに、冗長な共有情報の発見、独特な情報によるモダリティ選択の優先順位付け、両方のモダリティから新しい情報を見つけるための相乗的融合など、モダリティ間の共通的な相互作用によるタスクのグループ化を観察し、不一致なタスクからの干渉を抑えながら、モデルがグループ内でトランスファー可能なスキルを学習することを奨励する。
この目的のために,マルチモーダルインタラクションのタイプに基づいた,シンプルながら驚くほど効果的なタスクグループ化戦略であるMINTを導入する。
提案手法は,マルチモーダル命令チューニングにおいて,既存のタスクグループ化ベースラインを大幅に上回る性能を示し,一般化と特殊化の効果的なバランスを示す。
関連論文リスト
- Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。