論文の概要: MAPLE: Modality-Aware Post-training and Learning Ecosystem
- arxiv url: http://arxiv.org/abs/2602.11596v1
- Date: Thu, 12 Feb 2026 05:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.654228
- Title: MAPLE: Modality-Aware Post-training and Learning Ecosystem
- Title(参考訳): MAPLE: モダリティを考慮したポストトレーニングと学習エコシステム
- Authors: Nikhil Verma, Minjung Kim, JooYoung Yoo, Kyung-Min Jin, Manasa Bharadwaj, Kevin Ferreira, Ko Keun Kim, Youngjoon Kim,
- Abstract要約: 既存のRLポストトレーニングパイプラインは、すべての入力信号を同等に扱い、各タスクが実際に必要とするモダリティを無視します。
MAPLEは、学習と学習の完全なモダリティを意識したエコシステムである。
MAPLEはユニモーダル/マルチモーダルの精度ギャップを30.24%縮小し、3.18倍の速度で収束し、全てのモダリティの組み合わせの安定性を維持する。
- 参考スコア(独自算出の注目度): 6.41025301801655
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal language models now integrate text, audio, and video for unified reasoning. Yet existing RL post-training pipelines treat all input signals as equally relevant, ignoring which modalities each task actually requires. This modality-blind training inflates policy-gradient variance, slows convergence, and degrades robustness to real-world distribution shifts where signals may be missing, added, or reweighted. We introduce MAPLE, a complete modality-aware post-training and learning ecosystem comprising: (1) MAPLE-bench, the first benchmark explicitly annotating minimal signal combinations required per task; (2) MAPO, a modality-aware policy optimization framework that stratifies batches by modality requirement to reduce gradient variance from heterogeneous group advantages; (3) Adaptive weighting and curriculum scheduling that balances and prioritizes harder signal combinations. Systematic analysis across loss aggregation, clipping, sampling, and curriculum design establishes MAPO's optimal training strategy. Adaptive weighting and curriculum focused learning further boost performance across signal combinations. MAPLE narrows uni/multi-modal accuracy gaps by 30.24%, converges 3.18x faster, and maintains stability across all modality combinations under realistic reduced signal access. MAPLE constitutes a complete recipe for deployment-ready multimodal RL post-training.
- Abstract(参考訳): マルチモーダル言語モデルは、統一推論のためにテキスト、オーディオ、ビデオを統合する。
しかし、既存のRLポストトレーニングパイプラインは、すべての入力信号を同等に扱い、各タスクが実際に必要とするモダリティを無視します。
このモダリティ・ブラインドトレーニングは、ポリシーの段階的な分散を膨らませ、収束を遅くし、信号の欠如、追加、再重み付けの可能性のある実世界の分散シフトにロバスト性を低下させる。
我々は,(1)タスクごとに必要となる最小信号の組み合わせを明示的に注釈付けする最初のベンチマークであるMAPLE-bench,(2)モダリティ要求によりバッチを階層化して不均一なグループメリットからの勾配分散を低減するMAPO,(3)より難しい信号の組み合わせのバランスと優先順位付けを行う適応重み付けとカリキュラムスケジューリングを含む,完全なモダリティ対応後学習エコシステムであるMAPLEを紹介する。
損失集約、クリッピング、サンプリング、カリキュラム設計の体系的分析は、MAPOの最適なトレーニング戦略を確立する。
適応重み付けとカリキュラム中心の学習は、信号の組み合わせによるパフォーマンスをさらに向上させる。
MAPLEはユニモーダル/マルチモーダルの精度ギャップを30.24%縮小し、3.18倍の速度で収束し、現実的な信号アクセスで全てのモダリティの組み合わせの安定性を維持する。
MAPLEはデプロイ対応のマルチモーダルRLポストトレーニングのための完全なレシピを構成する。
関連論文リスト
- Meta Hierarchical Reinforcement Learning for Scalable Resource Management in O-RAN [9.290879387995401]
本稿では,モデル非依存型メタラーニング(MAML)に触発された適応型メタ階層型強化学習フレームワークを提案する。
このフレームワークは階層的な制御とメタラーニングを統合し、グローバルとローカルの両方の適応を可能にする。
ネットワークスケールの増加に伴い、適応と一貫性のある公平性、レイテンシ、スループットのパフォーマンスが最大40%向上する。
論文 参考訳(メタデータ) (2025-12-08T08:16:27Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Improving Multimodal Learning Balance and Sufficiency through Data Remixing [14.282792733217653]
弱いモダリティを強制する方法は、単調な充足性とマルチモーダルなバランスを達成できない。
マルチモーダルデータのデカップリングや,各モーダルに対するハードサンプルのフィルタリングなど,モダリティの不均衡を軽減するマルチモーダルデータリミックスを提案する。
提案手法は既存の手法とシームレスに統合され,CREMADでは約6.50%$uparrow$,Kineetic-Soundsでは3.41%$uparrow$の精度が向上する。
論文 参考訳(メタデータ) (2025-06-13T08:01:29Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - Balancing Multimodal Training Through Game-Theoretic Regularization [26.900302082724295]
マルチモーダル学習は、データソース間の依存関係をキャプチャすることで、よりリッチな情報抽出を約束する。
しかし、現在のトレーニング手法は、しばしばモダリティの競争によって性能が低下する。
本稿では、相互情報分解(MI)に触発されたMCR(Multimodal Competition Regularizer)を提案する。
論文 参考訳(メタデータ) (2024-11-11T19:53:05Z) - Semi-Federated Learning: Convergence Analysis and Optimization of A
Hybrid Learning Framework [70.83511997272457]
本稿では,ベースステーション(BS)とデバイスの両方を活用するセミフェデレーション学習(SemiFL)パラダイムを提案し,中央集権学習(CL)とFLのハイブリッド実装を提案する。
我々はこの難解な問題を解くための2段階のアルゴリズムを提案し、ビームフォーマに閉形式解を提供する。
論文 参考訳(メタデータ) (2023-10-04T03:32:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。