論文の概要: MaD-Mix: Multi-Modal Data Mixtures via Latent Space Coupling for Vision-Language Model Training
- arxiv url: http://arxiv.org/abs/2602.07790v1
- Date: Sun, 08 Feb 2026 03:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.801495
- Title: MaD-Mix: Multi-Modal Data Mixtures via Latent Space Coupling for Vision-Language Model Training
- Title(参考訳): MaD-Mix:視覚・言語モデルトレーニングのための潜時空間結合によるマルチモーダルデータ混合
- Authors: Wanyun Xie, Francesco Tonin, Volkan Cevher,
- Abstract要約: MaD-Mixは、VLMトレーニングのためのマルチモーダルデータ混合を導出する、原則化されたフレームワークである。
MaD-Mixは様々なベンチマークでVLMトレーニングを高速化する。
複雑なトリモーダルビデオ-画像-テキストのシナリオでは、MaD-Mixは均一な重量よりも平均的な精度を向上する。
- 参考スコア(独自算出の注目度): 54.78779514101305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are typically trained on a diverse set of multi-modal domains, yet current practices rely on costly manual tuning. We propose MaD-Mix, a principled and computationally efficient framework that derives multi-modal data mixtures for VLM training. MaD-Mix formulates data mixing as modality-aware domain alignment maximization and obtains closed-form multi-modal alignment scores from the Fenchel dual through inter-modal coupling variables. MaD-Mix systematically handles domains with missing modalities, allowing for the integration of language-only domains. Empirical evaluations across 0.5B and 7B models demonstrate that MaD-Mix accelerates VLM training across diverse benchmarks. MaD-Mix matches human-tuned data mixtures using 22% fewer training steps in image-text instruction tuning. In complex tri-modal video-image-text scenarios, where manual tuning becomes impractical, MaD-Mix boosts average accuracy over uniform weights, with negligible mixture computation overhead (< 1 GPU-hour), enabling scalable mixture design for modern VLM pipelines.
- Abstract(参考訳): VLM(Vision-Language Models)は通常、多様なマルチモーダルドメインでトレーニングされるが、現在のプラクティスはコストのかかる手動チューニングに依存している。
本稿では,VLM学習のためのマルチモーダルデータ混合を導出する原理と計算効率のよいフレームワークであるMaD-Mixを提案する。
MaD-Mixは、モダリティを意識したドメインアライメントの最大化としてデータミキシングを定式化し、Fenchel双対からモーダル間結合変数を介して閉形式のマルチモーダルアライメントスコアを得る。
MaD-Mixは、言語のみのドメインの統合を可能にする、モダリティの欠如のあるドメインを体系的に扱う。
0.5Bモデルと7Bモデルに対する実証的な評価は、MaD-Mixが様々なベンチマークでVLMトレーニングを加速することを示している。
MaD-Mixは、画像テキストのインストラクションチューニングにおいて、トレーニングステップを22%減らして、人間が調整したデータ混合物とマッチングする。
手動チューニングが実用的でない複雑な3モーダルビデオ画像テキストシナリオでは、MaD-Mixは均一な重みよりも平均的な精度を向上し、無視できる混合計算オーバーヘッド(1 GPU-hour)を実現し、現代のVLMパイプラインのスケーラブルな混合設計を可能にしている。
関連論文リスト
- Linear Model Merging Unlocks Simple and Scalable Multimodal Data Mixture Optimization [38.78268216433473]
異なるデータ混合物の性能を推定するための効率的な戦略としてモデルマージについて検討する。
我々は14のマルチモーダルベンチマーク実験を行い、プロキシモデルが実際のデータ混合に基づいてトレーニングされたモデルと高い相関を示すことを実証的に実証した。
論文 参考訳(メタデータ) (2026-02-04T16:06:39Z) - MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning [37.71233459623324]
RLVR(Reinforcement Learning with Verifiable Rewards)は、最近、大規模言語モデル(LLM)のポストトレーニングのための強力なパラダイムとして登場した。
RLVRをMultimodal LLM(MLLMs)に適用することは大きなチャンスであるが、視覚言語タスクの広範で異質な性質により複雑である。
本稿では、厳密なデータ混合問題定式化とベンチマーク実装を備えたマルチモーダルLLM RLVRのための体系的な後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T17:59:38Z) - MMBind: Unleashing the Potential of Distributed and Heterogeneous Data for Multimodal Learning in IoT [11.884646027921173]
分散および異種IoTデータに対するマルチモーダル学習のための新しいデータバインディング手法であるMBBindを提案する。
MMBindは、データの不完全性やドメインシフトの度合いによって、最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-18T23:34:07Z) - MM-Mixing: Multi-Modal Mixing Alignment for 3D Understanding [64.65145700121442]
MM-Mixingは3次元理解のためのマルチモーダルミキシングアライメントフレームワークである。
提案する2段階学習パイプラインは,特徴レベルと入力レベルを混合して3Dエンコーダを最適化する。
MM-Mixingは,様々な学習シナリオにおけるベースライン性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-05-28T18:44:15Z) - Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Modeling Performance [55.872926690722714]
本研究では,関数形式の混合比に関するモデル性能の予測可能性について検討する。
トレーニングステップのスケーリング法則,モデルサイズ,データ混合法則のネスト利用を提案する。
提案手法は,RedPajamaにおける100Bトークンをトレーニングした1Bモデルのトレーニング混合物を効果的に最適化する。
論文 参考訳(メタデータ) (2024-03-25T17:14:00Z) - TiMix: Text-aware Image Mixing for Effective Vision-Language
Pre-training [42.142924806184425]
クロスモーダルなコントラスト学習のための混合データサンプルは、暗黙的にコントラスト損失のレギュレータとして機能する。
TiMixは、既存のメソッドに対してベンチマークした場合、トレーニングデータの量が減り、トレーニング時間が短縮された場合でも、ダウンストリームタスクで同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-12-14T12:02:24Z) - Learning with MISELBO: The Mixture Cookbook [62.75516608080322]
本稿では,VampPriorとPixelCNNデコーダネットワークを用いて,フローベース階層型変分オートエンコーダ(VAE)の正規化のための変分近似を初めて提案する。
我々は、この協調行動について、VIと適応的重要度サンプリングの新たな関係を描いて説明する。
我々は、MNISTおよびFashionMNISTデータセット上の負のログ類似度の観点から、VAEアーキテクチャの最先端結果を得る。
論文 参考訳(メタデータ) (2022-09-30T15:01:35Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。