論文の概要: MINT: Multimodal Instruction Tuning with Multimodal Interaction Grouping
- arxiv url: http://arxiv.org/abs/2506.02308v3
- Date: Fri, 06 Jun 2025 21:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 11:53:35.392652
- Title: MINT: Multimodal Instruction Tuning with Multimodal Interaction Grouping
- Title(参考訳): MINT:マルチモーダルインタラクショングループによるマルチモーダルインストラクションチューニング
- Authors: Xiaojun Shan, Qi Cao, Xing Han, Haofei Yu, Paul Pu Liang,
- Abstract要約: 我々は,マルチモーダルインタラクションのタイプに基づいた,シンプルながら驚くほど効果的なタスクグループ化戦略であるMINTを紹介する。
提案手法は,マルチモーダル命令チューニングにおいて,既存のタスクグループ化ベースラインを大幅に上回ることを示す。
- 参考スコア(独自算出の注目度): 28.653290360671175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal foundation models have achieved state-of-the-art performance across a range of tasks. These breakthroughs are largely driven by new pre-training paradigms that leverage large-scale, unlabeled multimodal data, followed by instruction fine-tuning on curated labeled datasets and high-quality prompts. While there is growing interest in scaling instruction fine-tuning to ever-larger datasets in both quantity and scale, our findings reveal that simply increasing the number of instruction-tuning tasks does not consistently yield better performance. Instead, we observe that grouping tasks by the common interactions across modalities, such as discovering redundant shared information, prioritizing modality selection with unique information, or requiring synergistic fusion to discover new information from both modalities, encourages the models to learn transferrable skills within a group while suppressing interference from mismatched tasks. To this end, we introduce MINT, a simple yet surprisingly effective task-grouping strategy based on the type of multimodal interaction. We demonstrate that the proposed method greatly outperforms existing task grouping baselines for multimodal instruction tuning, striking an effective balance between generalization and specialization.
- Abstract(参考訳): マルチモーダル基礎モデルの最近の進歩は、様々なタスクで最先端のパフォーマンスを実現している。
これらのブレークスルーは、大規模でラベルなしのマルチモーダルデータを活用する新しい事前トレーニングパラダイムと、キュレートされたラベル付きデータセットと高品質なプロンプトによる命令微調整によって大きく推進される。
命令の微調整には量と規模の両方で関心が高まりつつあるが、単に命令の微調整タスクの数を増やせば、パフォーマンスが常に向上するわけではないことが判明した。
その代わりに、冗長な共有情報の発見、独特な情報によるモダリティ選択の優先順位付け、両方のモダリティから新しい情報を見つけるための相乗的融合など、モダリティ間の共通的な相互作用によるタスクのグループ化を観察し、不一致なタスクからの干渉を抑えながら、モデルがグループ内でトランスファー可能なスキルを学習することを奨励する。
この目的のために,マルチモーダルインタラクションのタイプに基づいた,シンプルながら驚くほど効果的なタスクグループ化戦略であるMINTを導入する。
提案手法は,マルチモーダル命令チューニングにおいて,既存のタスクグループ化ベースラインを大幅に上回る性能を示し,一般化と特殊化の効果的なバランスを示す。
関連論文リスト
- Efficient Prompting for Continual Adaptation to Missing Modalities [7.782217188939437]
動的欠落モード問題を連続学習課題として定式化する。
モータリティ特化プロンプト,タスク認識,タスク特化プロンプトの3種類を紹介する。
これらのプロンプトにより、モデルはモダリティ内、モダリティ間、タスク内、タスク間の特徴を学ぶことができる。
論文 参考訳(メタデータ) (2025-03-01T15:09:37Z) - One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning [16.96824902454355]
複数のタスクやモダリティを同時に処理する統合フレームワークを提案する。
このフレームワークでは、すべてのモダリティとタスクは統一トークンとして表現され、単一の一貫したアプローチでトレーニングされる。
複数のタスクラベルを付加したサンプルを含む新しいベンチマークMMUDを提案する。
複数のタスクを合理化して効率的に同時に処理できることを実証する。
論文 参考訳(メタデータ) (2024-08-06T07:19:51Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [51.58020580970644]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。