論文の概要: Learning to Specialize: Joint Gating-Expert Training for Adaptive MoEs in Decentralized Settings
- arxiv url: http://arxiv.org/abs/2306.08586v3
- Date: Tue, 03 Jun 2025 16:07:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:08.805813
- Title: Learning to Specialize: Joint Gating-Expert Training for Adaptive MoEs in Decentralized Settings
- Title(参考訳): 専門化のための学習:分散環境における適応型MOEのための共同ゲーティング-エキスパートトレーニング
- Authors: Yehya Farhat, Hamza ElMokhtar Shili, Fangshuo Liao, Chen Dun, Mirian Hipolito Garcia, Guoqing Zheng, Ahmed Hassan Awadallah, Robert Sim, Dimitrios Dimitriadis, Anastasios Kyrillidis,
- Abstract要約: Mixture-of-Experts (MoEs)は、コンポーネントのサブセットを動的に活性化することでスケーラビリティを実現する。
推論コストとデータヘテロジニティにより、ゲーティング関数と専門家の協調トレーニングがドメイン固有の専門知識を割り当てる方法について検討する。
- 参考スコア(独自算出の注目度): 41.98633628526484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixture-of-Experts (MoEs) achieve scalability by dynamically activating subsets of their components. Yet, understanding how expertise emerges through joint training of gating mechanisms and experts remains incomplete, especially in scenarios without clear task partitions. Motivated by inference costs and data heterogeneity, we study how joint training of gating functions and experts can dynamically allocate domain-specific expertise across multiple underlying data distributions. As an outcome of our framework, we develop an instance tailored specifically to decentralized training scenarios, introducing \textit{Dynamically Decentralized Orchestration of MoEs} or \texttt{DDOME}. \texttt{DDOME} leverages heterogeneity emerging from distributional shifts across decentralized data sources to specialize experts dynamically. By integrating a pretrained common expert to inform a gating function, \texttt{DDOME} achieves personalized expert subset selection on-the-fly, facilitating just-in-time personalization. We empirically validate \texttt{DDOME} within a Federated Learning (FL) context: \texttt{DDOME} attains from 4\% up to an 24\% accuracy improvement over state-of-the-art FL baselines in image and text classification tasks, while maintaining competitive zero-shot generalization capabilities. Furthermore, we provide theoretical insights confirming that the joint gating-experts training is critical for achieving meaningful expert specialization.
- Abstract(参考訳): Mixture-of-Experts (MoEs)は、コンポーネントのサブセットを動的に活性化することでスケーラビリティを実現する。
しかし、特に明確なタスク分割のないシナリオでは、ゲーティングメカニズムとエキスパートの合同トレーニングを通じて専門知識がどのように現れるかを理解することは不完全なままである。
推論コストとデータ不均一性によって動機付けられ、ゲーティング関数と専門家の協調トレーニングが、複数の基礎となるデータ分布にまたがって、ドメイン固有の専門知識を動的に割り当てる方法について検討する。
フレームワークの結果として、私たちは、分散化されたトレーニングシナリオに特化して、 \textit{Dynamically Decentralized Orchestration of MoEs} や \texttt{DDOME} を導入したインスタンスを開発しました。
\texttt{DDOME} は分散データソース間の分散シフトから生じる異質性を利用して、専門家を動的に専門化する。
事前訓練された共通エキスパートを統合してゲーティング機能に通知することで、 \texttt{DDOME}は、パーソナライズされた専門家サブセットの選択をオンザフライで達成し、ジャスト・イン・タイムのパーソナライズを容易にする。
フェデレートラーニング (FL) のコンテキストにおいて, \texttt{DDOME} を実証的に検証する: \textt{DDOME} は, 画像およびテキスト分類タスクにおける最先端のFLベースラインよりも 4 % から 24 % まで精度が向上し, 競合ゼロショットの一般化能力を維持している。
さらに,有意義な専門化を達成するためには,共同ゲーティング・エキスパートトレーニングが重要であることを示す理論的洞察を提供する。
関連論文リスト
- Efficient Training of Large-Scale AI Models Through Federated Mixture-of-Experts: A System-Level Approach [52.79991638077892]
この記事では、動的クライアント-専門家のアライメントのための堅牢な定量的戦略が欠如しているという、批判的だが未調査のコンセプトを強調します。
本稿では,動的適合度スコアリング,グローバルエキスパート負荷監視,クライアントのキャパシティ・プロファイリングを取り入れた,インテリジェントなクライアント-エキスパートアライメントのためのシステム設計を提案する。
論文 参考訳(メタデータ) (2025-07-08T05:30:37Z) - Keep the General, Inject the Specific: Structured Dialogue Fine-Tuning for Knowledge Injection without Catastrophic Forgetting [24.67373225584835]
大規模ビジョン言語モデルは、広範囲なマルチモーダル事前学習を通じて、印象的な多機能性を実証している。
ドメイン固有の知識を注入する直接的な適応アプローチは、基礎的な視覚言語能力の破滅的な忘れをしばしば引き起こす。
本稿では,破滅的忘れを最小化しつつ,ドメイン固有の知識を効果的に注入する効果的な手法である構造化対話ファインタニング(SDFT)を紹介する。
論文 参考訳(メタデータ) (2025-04-27T18:04:02Z) - Global Group Fairness in Federated Learning via Function Tracking [8.879649041822779]
最大平均離散性(MMD)に基づくグローバルフェアネス正規化器の関数追跡方式を提案する。
このスキームは、厳密な収束保証を維持しながら、ほとんどのフェデレーション付き学習アルゴリズムにシームレスに統合される。
論文 参考訳(メタデータ) (2025-03-19T12:42:37Z) - Client-Centric Federated Adaptive Optimization [78.30827455292827]
Federated Learning(FL)は、クライアントが独自のデータをプライベートに保ちながら、協調的にモデルをトレーニングする分散学習パラダイムである。
本稿では,新しいフェデレーション最適化手法のクラスであるフェデレーション中心適応最適化を提案する。
論文 参考訳(メタデータ) (2025-01-17T04:00:50Z) - Flexible and Adaptable Summarization via Expertise Separation [59.26639426529827]
熟練した要約モデルは、柔軟性と適応性の両方を示すべきである。
我々は,Mixture-of-Expert SummarizationアーキテクチャであるMoeSummを提案する。
我々のモデルでは、一般とドメイン固有の要約能力の分離は、顕著な柔軟性と適応性を与えている。
論文 参考訳(メタデータ) (2024-06-08T05:31:19Z) - MAP: Model Aggregation and Personalization in Federated Learning with Incomplete Classes [49.22075916259368]
一部の実世界のアプリケーションでは、データサンプルは通常、ローカルデバイスに分散される。
本稿では,クライアントが不完全なクラスを所有する特別なI.I.D.シーンに焦点を当てる。
提案するMAPアルゴリズムは,FLにおけるアグリゲーションとパーソナライゼーションの目標を同時に達成できる。
論文 参考訳(メタデータ) (2024-04-14T12:22:42Z) - Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z) - Advocating for the Silent: Enhancing Federated Generalization for Non-Participating Clients [38.804196122833645]
本稿では,フェデレートラーニングのための情報理論の一般化フレームワークについて紹介する。
局所分布の情報エントロピーを評価することで一般化誤差を定量化する。
導出一般化境界に着想を得て、重み付け集約アプローチとクライアント選択戦略の二重化を導入する。
論文 参考訳(メタデータ) (2023-10-11T03:39:56Z) - Profit: Benchmarking Personalization and Robustness Trade-off in
Federated Prompt Tuning [40.16581292336117]
フェデレートラーニング(FL)の多くの応用において、クライアントはローカルデータを用いてパーソナライズされたモデルを求めているが、一般的なグローバルな知識を保持するという意味でも堅牢である。
フェデレーションシステムの設計において、このパーソナライゼーションとロバストネスのトレードオフをどのようにナビゲートするかを理解することは重要である。
論文 参考訳(メタデータ) (2023-10-06T23:46:33Z) - Efficient Personalized Federated Learning via Sparse Model-Adaptation [47.088124462925684]
Federated Learning (FL)は、複数のクライアントに対して、独自のプライベートデータを共有せずに機械学習モデルをトレーニングすることを目的としている。
疎局所モデルを適応的かつ効率的に学習し,効率的なパーソナライズFLのためのpFedGateを提案する。
我々は,pFedGateが最先端手法よりも優れたグローバル精度,個人精度,効率性を同時に達成できることを示す。
論文 参考訳(メタデータ) (2023-05-04T12:21:34Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - PGFed: Personalize Each Client's Global Objective for Federated Learning [7.810284483002312]
本稿では,各クライアントが自身のグローバルな目的をパーソナライズ可能な,パーソナライズされたFLフレームワークを提案する。
大規模な(O(N2))通信オーバーヘッドと潜在的なプライバシリークを回避するため、各クライアントのリスクは、他のクライアントの適応的リスクアグリゲーションの1次近似によって推定される。
異なるフェデレーション条件下での4つのデータセットに対する実験により,従来の最先端手法よりも一貫したPGFの改良が示された。
論文 参考訳(メタデータ) (2022-12-02T21:16:39Z) - Exploiting Personalized Invariance for Better Out-of-distribution
Generalization in Federated Learning [13.246981646250518]
本稿では, 個人化学習手法と比較して, 個人化非分散を探索する汎用的な二重正規化学習フレームワークを提案する。
本手法は,既存のフェデレーション学習や不変学習よりも,多様なアウト・オブ・ディストリビューションおよび非IIDデータケースにおいて優れていることを示す。
論文 参考訳(メタデータ) (2022-11-21T08:17:03Z) - Personalizing or Not: Dynamically Personalized Federated Learning with
Incentives [37.42347737911428]
個人データを共有せずにパーソナライズされたモデルを学習するためのパーソナライズド・フェデレーション・ラーニング(FL)を提案する。
パーソナライズレートは、パーソナライズされたモデルのトレーニングを希望する顧客の割合として測定され、フェデレーションされた設定に導入され、DyPFLを提案する。
この技術は、クライアントがローカルモデルをパーソナライズすることへのインセンティブを与えると同時に、より優れたパフォーマンスでグローバルモデルを採用できるようにする。
論文 参考訳(メタデータ) (2022-08-12T09:51:20Z) - Orchestra: Unsupervised Federated Learning via Globally Consistent
Clustering [15.219936378115218]
Orchestraは、フェデレーションの階層を利用して分散クラスタリングタスクをオーケストレーションする、新しい教師なしのフェデレーション学習技術である。
線形プローブ下でのアルゴリズムパイプラインにより,優れた一般化性能が保証されることを示す。
論文 参考訳(メタデータ) (2022-05-23T17:59:03Z) - PFA: Privacy-preserving Federated Adaptation for Effective Model
Personalization [6.66389628571674]
フェデレートラーニング(FL)は、プライバシを改善した分散機械学習パラダイムとして普及している。
本稿では,より優れたパーソナライズ結果を得るために,訓練されたモデルをフェデレーション方式で適応させることを目的とした,フェデレーション適応と呼ばれる新しい概念を提案する。
PFA(Privacy-preserving Federated Adaptation)を実現するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-02T08:07:34Z) - Toward Understanding the Influence of Individual Clients in Federated
Learning [52.07734799278535]
フェデレーションラーニングにより、クライアントはプライベートデータを中央サーバーに送信することなく、グローバルモデルを共同でトレーニングできます。
em-Influenceという新しい概念を定義し、パラメータに対するこの影響を定量化し、このメトリクスを推定する効果的な効率的なモデルを提案しました。
論文 参考訳(メタデータ) (2020-12-20T14:34:36Z) - Personalized Federated Learning with First Order Model Optimization [76.81546598985159]
そこで我々は,各クライアントが他のクライアントと連携して,クライアント固有の目的ごとのより強力なモデルを得る,フェデレーション学習の代替案を提案する。
基礎となるデータ分布やクライアントの類似性に関する知識を前提とせず、各クライアントが関心のある任意のターゲット分布を最適化できるようにします。
この手法は既存の代替品を上回り、ローカルデータ配信以外の転送のようなパーソナライズされたFLの新機能を可能にする。
論文 参考訳(メタデータ) (2020-12-15T19:30:29Z) - Learning From Multiple Experts: Self-paced Knowledge Distillation for
Long-tailed Classification [106.08067870620218]
我々は,LFME(Learning From Multiple Experts)と呼ばれる自己評価型知識蒸留フレームワークを提案する。
提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。
提案手法は,最先端の手法に比べて優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-06T12:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。