論文の概要: A Step Toward Federated Pretraining of Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2603.26786v1
- Date: Wed, 25 Mar 2026 08:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.606984
- Title: A Step Toward Federated Pretraining of Multimodal Large Language Models
- Title(参考訳): マルチモーダル大規模言語モデルのフェデレーション事前学習に向けて
- Authors: Baochen Xiong, Yifan Xu, Xiaoshan Yang, Yaguang Song, Yaowei Wang, Changsheng Xu,
- Abstract要約: Federated Learningは、分散リソースをアンロックするための有望なソリューションを提供する。
Fed-MAは、視覚エンコーダとLLMを凍結し、クロスモーダルプロジェクタを協調的にトレーニングする軽量な事前トレーニングパラダイムである。
MLLM事前学習のための先駆的フレームワークであるFed-CMPを提案する。
- 参考スコア(独自算出の注目度): 87.64508862413565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid evolution of Multimodal Large Language Models (MLLMs) is bottlenecked by the saturation of high-quality public data, while vast amounts of diverse multimodal data remain inaccessible in privacy-sensitive silos. Federated Learning (FL) offers a promising solution to unlock these distributed resources, but existing research focuses predominantly on fine-tuning, leaving the foundational pre-training phase largely unexplored. In this paper, we formally introduce the Federated MLLM Alignment (Fed-MA) task, a lightweight pre-training paradigm that freezes the vision encoder and LLM while collaboratively training the cross-modal projector. We identify two critical challenges in this setting: (i) parameter interference in aggregating local projectors; and (ii) gradient oscillations in one-pass collaborative SGD. To address these challenges, we propose Fed-CMP, a pioneering framework for federated MLLM pre-training. Fed-CMP employs Canonical Reliability-Aware Aggregation, which constructs a canonical space to decompose client projectors into a shared alignment basis and client-specific coefficients, then performs reliability-weighted fusion to suppress parameter interference. Furthermore, Fed-CMP introduces Orthogonality-Preserved Momentum, which applies momentum to the shared alignment basis via orthogonal projection, accumulating historical optimization directions while preserving geometric structure. We construct four federated pre-training scenarios based on public datasets, and extensive experiments validate that Fed-CMP significantly outperforms existing baselines.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の急速な進化は、高品質な公開データの飽和によってボトルネックとなっている。
Federated Learning(FL)は、これらの分散リソースをアンロックするための有望なソリューションを提供する。
本稿では,視覚エンコーダとLDMを凍結する軽量事前学習パラダイムであるフェデレートMLLMアライメント(Fed-MA)タスクを,クロスモーダルプロジェクタを協調的にトレーニングしながら,正式に導入する。
この設定では2つの重要な課題を特定します。
一 局所プロジェクターの集約におけるパラメータ干渉
(II)ワンパス協調SGDにおける勾配振動
これらの課題に対処するため,フェデレートMLLM事前学習の先駆的フレームワークであるFed-CMPを提案する。
Fed-CMPはCanonical Reliability-Aware Aggregationを用いて、クライアントプロジェクタを共有アライメントベースとクライアント固有の係数に分解するための標準空間を構築し、パラメータ干渉を抑制するために信頼性重畳融合を行う。
さらに、Fed-CMPは、直交射影を通して共有アライメントベースに運動量を適用し、幾何学的構造を保持しながら歴史的な最適化方向を蓄積する、直交保存モメンタムを導入している。
我々は、公開データセットに基づく4つの連邦事前訓練シナリオを構築し、Fed-CMPが既存のベースラインを大幅に上回っていることを検証した。
関連論文リスト
- Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models [63.70401095689976]
パラメータを好みに置き換えることは、よりスケーラブルでプライバシに保護される未来を表している、と私たちは主張する。
ヘテロジニアスVLMのためのGRPOとMixture-of-Rewardsを用いた協調アライメントフレームワークであるMoRを提案する。
MoRは、一般化、堅牢性、およびクロスクライアント適応性において、連邦化されたアライメントベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-31T03:11:51Z) - Federated Attention: A Distributed Paradigm for Collaborative LLM Inference over Edge Networks [63.541114376141735]
大規模言語モデル(LLM)は、さまざまなアプリケーションシナリオにまたがってインテリジェントな機能を提供しながら、急速に普及しています。
しかし、彼らの共同シナリオにおける実践的なデプロイは、プライバシの脆弱性、通信オーバーヘッド、計算ボトルネックといった根本的な課題に直面します。
我々はフェデレート・アテンション(FedAttn)を提案し、フェデレーション・パラダイムを自己注意機構に統合する。
論文 参考訳(メタデータ) (2025-11-04T15:14:58Z) - Federated Multi-Objective Learning with Controlled Pareto Frontiers [10.818539304970935]
フェデレートラーニング(FL)は、プライバシ保護モデルトレーニングにおいて広く採用されているパラダイムである。
FMOL(Federated Multi-Objective Learning)のような既存の手法は、多目的最適化(MOO)をFLにインポートしようとする試みである。
優先コーン制約によりクライアントの最適性を強制する最初の統合MOOフレームワークであるComically-Regularized FMOL(CR-FMOL)を紹介する。
論文 参考訳(メタデータ) (2025-08-07T14:15:12Z) - FedMP: Tackling Medical Feature Heterogeneity in Federated Learning from a Manifold Perspective [23.64943362027511]
Federated Learning(FL)は、複数のクライアントがローカルなプライベートデータを共有せずに、共同で共有モデルをトレーニングする分散機械学習パラダイムである。
非IIDシナリオ下でFLを強化するための新しい手法であるFedMPを提案する。
実世界のマルチセンター分布を含む複数の医用画像データセットにおけるFedMPの有効性を検証する。
論文 参考訳(メタデータ) (2025-08-07T01:13:46Z) - Distilling Transitional Pattern to Large Language Models for Multimodal Session-based Recommendation [67.84581846180458]
セッションベースのレコメンデーション(SBR)は、匿名セッションに基づいて次の項目を予測する。
近年のMultimodal SBR法は、モダリティ学習に単純化された事前学習モデルを用いるが、セマンティック・リッチネスに制限がある。
蒸留パラダイムを拡張し,MSBRの促進のための遷移パターンを分離・整合させる多モードLCM拡張フレームワークTPADを提案する。
論文 参考訳(メタデータ) (2025-04-13T07:49:08Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。