論文の概要: MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining
- arxiv url: http://arxiv.org/abs/2604.14198v1
- Date: Fri, 03 Apr 2026 04:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.712235
- Title: MixAtlas: Uncertainty-aware Data Mixture Optimization for Multimodal LLM Midtraining
- Title(参考訳): MixAtlas: マルチモーダルLLMミッドトレーニングのための不確かさを意識したデータ混合最適化
- Authors: Bingbing Wen, Sirajul Salekin, Feiyang Kang, Bill Howe, Lucy Lu Wang, Javier Movellan, Manjot Bilkhu,
- Abstract要約: MixAtlasは、検査、適応、新しいコーパスへの転送が可能な、ベンチマークターゲットのデータレシピを生成する。
視覚的理解、文書推論、マルチモーダル推論にまたがる10のベンチマークを評価した。
- 参考スコア(独自算出の注目度): 13.388276899120065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain reweighting can improve sample efficiency and downstream generalization, but data-mixture optimization for multimodal midtraining remains largely unexplored. Current multimodal training recipes tune mixtures along a single dimension, typically data format or task type. We introduce MixAtlas, a method that produces benchmark-targeted data recipes that can be inspected, adapted, and transferred to new corpora. MixAtlas decomposes the training corpus along two axes: image concepts (10 visual-domain clusters discovered via CLIP embeddings) and task supervision (5 objective types including captioning, OCR, grounding, detection, and VQA). Using small proxy models (Qwen2-0.5B) paired with a Gaussian-process surrogate and GP-UCB acquisition, MixAtlas searches the resulting mixture space with the same proxy budget as regression-based baselines but finds better-performing mixtures. We evaluate on 10 benchmarks spanning visual understanding, document reasoning, and multimodal reasoning. On Qwen2-7B, optimized mixtures improve average performance by 8.5%-17.6% over the strongest baseline; on Qwen2.5-7B, gains are 1.0%-3.3%. Both settings reach baseline-equivalent training loss in up to 2 times fewer steps. Recipes discovered on 0.5B proxies transfer to 7B-scale training across Qwen model families.
- Abstract(参考訳): ドメイン再重み付けは、サンプル効率と下流の一般化を改善することができるが、マルチモーダルミドルトレーニングのためのデータ混合最適化はほとんど探索されていない。
現在のマルチモーダルなトレーニングレシピは、データ形式やタスクタイプなど、単一の次元に沿ってミックスをチューニングします。
MixAtlasは、ベンチマーク対象のデータレシピを生成し、検査、適応、新しいコーパスに転送できる手法である。
MixAtlasは、イメージ概念(CLIP埋め込みを通じて発見された10のビジュアルドメインクラスタ)とタスク監視(キャプション、OCR、グラウンド、検出、VQAを含む5つの目的タイプ)の2つの軸に沿ってトレーニングコーパスを分解する。
ガウス過程サロゲートとGP-UCBの取得と組み合わせた小さなプロキシモデル(Qwen2-0.5B)を用いて、MixAtlasは回帰ベースのベースラインと同じプロキシ予算で得られた混合空間を探索するが、より良い性能の混合を見つける。
視覚的理解、文書推論、マルチモーダル推論にまたがる10のベンチマークを評価した。
Qwen2-7Bでは、最適化された混合物により、最強のベースラインよりも平均性能が8.5%-17.6%向上し、Qwen2.5-7Bでは1.0%-3.3%向上した。
どちらの設定も、最大2倍のステップでベースライン相当のトレーニング損失に達する。
0.5Bプロキシで発見されたレシピは、Qwenモデルファミリーで7Bスケールのトレーニングに移行した。
関連論文リスト
- Decouple Searching from Training: Scaling Data Mixing via Model Merging for Large Language Model Pre-training [16.022416196267937]
本稿では,モデルマージを利用して最適なデータ比を推定する新しいフレームワークであるDeouple Searching from Training Mix (DeMix)を提案する。
DeMixは,検索効率,精度,効率のトレードオフを破り,検索コストの低いベンチマーク性能と最適混合が得られることを示す。
論文 参考訳(メタデータ) (2026-01-31T14:27:46Z) - MergeMix: Optimizing Mid-Training Data Mixtures via Learnable Model Merging [72.00014675808228]
textbfMixは、重みをマージするモデルを高忠実で低コストなパフォーマンスプロキシとして再利用することで、最適なデータ混合比を決定する。
8B と 16B のパラメータを持つモデルの実験では、MergeMix が完全なマニュアルチューニングに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2026-01-25T14:31:57Z) - CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing [21.119495676190127]
Mixture-of-Experts (MoE) Large Language Models (LLMs) は、高度に最適化されたエキスパートパスに苦しむ。
プレトレーニングから学んだナイーブな専門家選択は、改善のための驚くべき10~20%の精度ギャップを残します。
テストサンプル毎に異なるレイヤのエキスパートを共同で再重み付けあるいは「再混合」するための新しいテスト時間最適化手法を開発する。
論文 参考訳(メタデータ) (2025-04-10T17:59:56Z) - Aioli: A Unified Optimization Framework for Language Model Data Mixing [74.50480703834508]
提案手法は, 単層サンプリングベースラインを平均的なテストパープレキシティで一貫した性能を発揮できないことを示す。
我々は、Aioliという新しいオンライン手法を導き、トレーニング全体を通して法パラメータの混合を直接推定し、それらを用いて比率を動的に調整する。
論文 参考訳(メタデータ) (2024-11-08T17:50:24Z) - Harnessing Hard Mixed Samples with Decoupled Regularizer [69.98746081734441]
Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。
本稿では,非結合型正規化器(Decoupled Mixup, DM)を用いた効率的な混合目標関数を提案する。
DMは、ミキシングの本来の滑らかさを損なうことなく、硬質混合試料を適応的に利用して識別特性をマイニングすることができる。
論文 参考訳(メタデータ) (2022-03-21T07:12:18Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。