論文の概要: Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models
- arxiv url: http://arxiv.org/abs/2605.16165v1
- Date: Fri, 15 May 2026 16:45:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.377683
- Title: Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models
- Title(参考訳): 多モードモデルにおけるモダリティ競争のための2次多重レベル変数補正
- Authors: Yishun Lu, Wes Armour,
- Abstract要約: 特にSOAPは、マルチモーダルアライメントのためのより安定した基盤を提供します。
マルチレベル変数補正を用いた2次最適化フレームワークであるemphML-FOP-SOAPを提案する。
AdamWと比較すると、サンプル効率を最大14タイムで改善し、壁時計のトレーニングを最大1.5タイムで高速化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive next-token training offers a unified formulation for image generation and text understanding, but it also creates strong modality competition that destabilizes optimization and limits large-batch scaling. We show that first-order optimizers such as AdamW are vulnerable to cross-modality gradient heterogeneity, while second-order preconditioning, particularly SOAP, provides a more stable basis for multimodal alignment. Building on this insight, we propose \emph{ML-FOP-SOAP}, a second-order optimization framework with Multi-Level Variance Correction. Our Fisher-Orthogonal Projection suppresses variance-induced modality conflicts, reducing the trade-off between visual generation and textual understanding. To make this practical under large gradient accumulation, we introduce a hierarchical folding strategy that captures fine-grained variance with low micro-step overhead. Experiments on Janus and Emu3 show consistent gains across both modalities and stable training at batch size 8192. Compared with AdamW, our method improves sample efficiency by up to $1.4\times$ and accelerates wall-clock training by up to $1.5\times$, offering a robust optimizer for scaling multimodal foundation models.
- Abstract(参考訳): 自己回帰的次世代トレーニングは、画像生成とテキスト理解のための統一的な定式化を提供するが、最適化を不安定にし、大規模なバッチスケーリングを制限する強力なモダリティ競争も生み出す。
我々は、AdamWのような一階最適化器が、多段勾配の不均一性に対して脆弱であることを示し、二階事前条件、特にSOAPは、より安定したマルチモーダルアライメント基盤を提供する。
この知見に基づいて,マルチレベル変動補正を用いた2次最適化フレームワークである \emph{ML-FOP-SOAP} を提案する。
我々のFisher-Orthogonal Projectionは、分散によって引き起こされるモダリティの衝突を抑制し、視覚生成とテキスト理解のトレードオフを減らす。
これを実現するために,マイクロステップのオーバーヘッドを小さく抑えながら微細な分散を捉える階層的折り畳み戦略を導入する。
JanusとEmu3の実験では、バッチサイズ8192でのモダリティと安定したトレーニングの両方で、一貫した利得を示している。
AdamWと比較すると,本手法はサンプル効率を最大1.4\times$で改善し,壁面時間トレーニングを最大1.5\times$で高速化し,マルチモーダルファンデーションモデルをスケールするための堅牢なオプティマイザを提供する。
関連論文リスト
- Policy-based Tuning of Autoregressive Image Models with Instance- and Distribution-Level Rewards [16.135177543347773]
自己回帰モデル(AR)は画像生成に非常に効果的であるが、標準の最大形推定トレーニングではサンプルの品質と多様性を直接最適化することができない。
本稿では,トークンベースのAR推論をマルコフ決定プロセスとして,グループ相対ポリシー最適化によって最適化した軽量なRLフレームワークを提案する。
私たちの中核的な貢献は、新しい流通レベルのLeave-One-Out FID(LOO-FID)の報酬の導入です。
論文 参考訳(メタデータ) (2026-03-24T11:28:36Z) - Trajectory Consistency for One-Step Generation on Euler Mean Flows [24.038760671907024]
本研究では,フローベース生成フレームワークであるemphEuler Mean Flows (EMF)を提案する。
EMFは最小サンプリングコストで長距離軌道の整合性を実現する。
論文 参考訳(メタデータ) (2026-01-31T04:32:32Z) - SPREAD: Sampling-based Pareto front Refinement via Efficient Adaptive Diffusion [0.8594140167290097]
SPREADは拡散確率モデル(DDPM)に基づく生成フレームワークである
決定空間からサンプリングされた点上の条件拡散過程を学習する。
適応的多重勾配降下インスパイアされた更新を高速収束に利用するサンプリングスキームにより、候補を洗練する。
論文 参考訳(メタデータ) (2025-09-25T12:09:37Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - Layer-wise Quantization for Quantized Optimistic Dual Averaging [75.4148236967503]
我々は、訓練の過程で不均一性に適応し、厳密な分散とコード長境界を持つ一般的な層ワイド量子化フレームワークを開発する。
本稿では,適応学習率を持つ量子最適化双対平均化(QODA)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-20T13:53:58Z) - VAMO: Efficient Zeroth-Order Variance Reduction for SGD with Faster Convergence [6.574641780732972]
大規模非問題はディープラーニングでは一般的である。
ファーストオーダー(FO)は今日のベースラインとして機能する。
ZOアルゴリズムは計算量とメモリコストを減らす。
VAMOは、より少ない動的メモリ要求でこれらのゲインを達成する。
論文 参考訳(メタデータ) (2025-05-20T05:31:15Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.67982828148859]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。