論文の概要: Learning to Specialize: Joint Gating-Expert Training for Adaptive MoEs in Decentralized Settings
- arxiv url: http://arxiv.org/abs/2306.08586v3
- Date: Tue, 03 Jun 2025 16:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:08.805813
- Title: Learning to Specialize: Joint Gating-Expert Training for Adaptive MoEs in Decentralized Settings
- Title(参考訳): 専門化のための学習:分散環境における適応型MOEのための共同ゲーティング-エキスパートトレーニング
- Authors: Yehya Farhat, Hamza ElMokhtar Shili, Fangshuo Liao, Chen Dun, Mirian Hipolito Garcia, Guoqing Zheng, Ahmed Hassan Awadallah, Robert Sim, Dimitrios Dimitriadis, Anastasios Kyrillidis,
- Abstract要約: Mixture-of-Experts (MoEs)は、コンポーネントのサブセットを動的に活性化することでスケーラビリティを実現する。
推論コストとデータヘテロジニティにより、ゲーティング関数と専門家の協調トレーニングがドメイン固有の専門知識を割り当てる方法について検討する。
- 参考スコア(独自算出の注目度): 41.98633628526484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoEs) achieve scalability by dynamically activating subsets of their components. Yet, understanding how expertise emerges through joint training of gating mechanisms and experts remains incomplete, especially in scenarios without clear task partitions. Motivated by inference costs and data heterogeneity, we study how joint training of gating functions and experts can dynamically allocate domain-specific expertise across multiple underlying data distributions. As an outcome of our framework, we develop an instance tailored specifically to decentralized training scenarios, introducing \textit{Dynamically Decentralized Orchestration of MoEs} or \texttt{DDOME}. \texttt{DDOME} leverages heterogeneity emerging from distributional shifts across decentralized data sources to specialize experts dynamically. By integrating a pretrained common expert to inform a gating function, \texttt{DDOME} achieves personalized expert subset selection on-the-fly, facilitating just-in-time personalization. We empirically validate \texttt{DDOME} within a Federated Learning (FL) context: \texttt{DDOME} attains from 4\% up to an 24\% accuracy improvement over state-of-the-art FL baselines in image and text classification tasks, while maintaining competitive zero-shot generalization capabilities. Furthermore, we provide theoretical insights confirming that the joint gating-experts training is critical for achieving meaningful expert specialization.
- Abstract(参考訳): Mixture-of-Experts (MoEs)は、コンポーネントのサブセットを動的に活性化することでスケーラビリティを実現する。
しかし、特に明確なタスク分割のないシナリオでは、ゲーティングメカニズムとエキスパートの合同トレーニングを通じて専門知識がどのように現れるかを理解することは不完全なままである。
推論コストとデータ不均一性によって動機付けられ、ゲーティング関数と専門家の協調トレーニングが、複数の基礎となるデータ分布にまたがって、ドメイン固有の専門知識を動的に割り当てる方法について検討する。
フレームワークの結果として、私たちは、分散化されたトレーニングシナリオに特化して、 \textit{Dynamically Decentralized Orchestration of MoEs} や \texttt{DDOME} を導入したインスタンスを開発しました。
\texttt{DDOME} は分散データソース間の分散シフトから生じる異質性を利用して、専門家を動的に専門化する。
事前訓練された共通エキスパートを統合してゲーティング機能に通知することで、 \texttt{DDOME}は、パーソナライズされた専門家サブセットの選択をオンザフライで達成し、ジャスト・イン・タイムのパーソナライズを容易にする。
フェデレートラーニング (FL) のコンテキストにおいて, \texttt{DDOME} を実証的に検証する: \textt{DDOME} は, 画像およびテキスト分類タスクにおける最先端のFLベースラインよりも 4 % から 24 % まで精度が向上し, 競合ゼロショットの一般化能力を維持している。
さらに,有意義な専門化を達成するためには,共同ゲーティング・エキスパートトレーニングが重要であることを示す理論的洞察を提供する。
関連論文リスト
- Client-Centric Federated Adaptive Optimization [78.30827455292827]
Federated Learning(FL)は、クライアントが独自のデータをプライベートに保ちながら、協調的にモデルをトレーニングする分散学習パラダイムである。
本稿では,新しいフェデレーション最適化手法のクラスであるフェデレーション中心適応最適化を提案する。
論文 参考訳(メタデータ) (2025-01-17T04:00:50Z) - MAP: Model Aggregation and Personalization in Federated Learning with Incomplete Classes [49.22075916259368]
一部の実世界のアプリケーションでは、データサンプルは通常、ローカルデバイスに分散される。
本稿では,クライアントが不完全なクラスを所有する特別なI.I.D.シーンに焦点を当てる。
提案するMAPアルゴリズムは,FLにおけるアグリゲーションとパーソナライゼーションの目標を同時に達成できる。
論文 参考訳(メタデータ) (2024-04-14T12:22:42Z) - Profit: Benchmarking Personalization and Robustness Trade-off in
Federated Prompt Tuning [40.16581292336117]
フェデレートラーニング(FL)の多くの応用において、クライアントはローカルデータを用いてパーソナライズされたモデルを求めているが、一般的なグローバルな知識を保持するという意味でも堅牢である。
フェデレーションシステムの設計において、このパーソナライゼーションとロバストネスのトレードオフをどのようにナビゲートするかを理解することは重要である。
論文 参考訳(メタデータ) (2023-10-06T23:46:33Z) - Efficient Personalized Federated Learning via Sparse Model-Adaptation [47.088124462925684]
Federated Learning (FL)は、複数のクライアントに対して、独自のプライベートデータを共有せずに機械学習モデルをトレーニングすることを目的としている。
疎局所モデルを適応的かつ効率的に学習し,効率的なパーソナライズFLのためのpFedGateを提案する。
我々は,pFedGateが最先端手法よりも優れたグローバル精度,個人精度,効率性を同時に達成できることを示す。
論文 参考訳(メタデータ) (2023-05-04T12:21:34Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - PGFed: Personalize Each Client's Global Objective for Federated Learning [7.810284483002312]
本稿では,各クライアントが自身のグローバルな目的をパーソナライズ可能な,パーソナライズされたFLフレームワークを提案する。
大規模な(O(N2))通信オーバーヘッドと潜在的なプライバシリークを回避するため、各クライアントのリスクは、他のクライアントの適応的リスクアグリゲーションの1次近似によって推定される。
異なるフェデレーション条件下での4つのデータセットに対する実験により,従来の最先端手法よりも一貫したPGFの改良が示された。
論文 参考訳(メタデータ) (2022-12-02T21:16:39Z) - Personalizing or Not: Dynamically Personalized Federated Learning with
Incentives [37.42347737911428]
個人データを共有せずにパーソナライズされたモデルを学習するためのパーソナライズド・フェデレーション・ラーニング(FL)を提案する。
パーソナライズレートは、パーソナライズされたモデルのトレーニングを希望する顧客の割合として測定され、フェデレーションされた設定に導入され、DyPFLを提案する。
この技術は、クライアントがローカルモデルをパーソナライズすることへのインセンティブを与えると同時に、より優れたパフォーマンスでグローバルモデルを採用できるようにする。
論文 参考訳(メタデータ) (2022-08-12T09:51:20Z) - PFA: Privacy-preserving Federated Adaptation for Effective Model
Personalization [6.66389628571674]
フェデレートラーニング(FL)は、プライバシを改善した分散機械学習パラダイムとして普及している。
本稿では,より優れたパーソナライズ結果を得るために,訓練されたモデルをフェデレーション方式で適応させることを目的とした,フェデレーション適応と呼ばれる新しい概念を提案する。
PFA(Privacy-preserving Federated Adaptation)を実現するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-02T08:07:34Z) - Toward Understanding the Influence of Individual Clients in Federated
Learning [52.07734799278535]
フェデレーションラーニングにより、クライアントはプライベートデータを中央サーバーに送信することなく、グローバルモデルを共同でトレーニングできます。
em-Influenceという新しい概念を定義し、パラメータに対するこの影響を定量化し、このメトリクスを推定する効果的な効率的なモデルを提案しました。
論文 参考訳(メタデータ) (2020-12-20T14:34:36Z) - Personalized Federated Learning with First Order Model Optimization [76.81546598985159]
そこで我々は,各クライアントが他のクライアントと連携して,クライアント固有の目的ごとのより強力なモデルを得る,フェデレーション学習の代替案を提案する。
基礎となるデータ分布やクライアントの類似性に関する知識を前提とせず、各クライアントが関心のある任意のターゲット分布を最適化できるようにします。
この手法は既存の代替品を上回り、ローカルデータ配信以外の転送のようなパーソナライズされたFLの新機能を可能にする。
論文 参考訳(メタデータ) (2020-12-15T19:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。