論文の概要: HDEE: Heterogeneous Domain Expert Ensemble
- arxiv url: http://arxiv.org/abs/2502.19385v1
- Date: Wed, 26 Feb 2025 18:30:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:55:44.240733
- Title: HDEE: Heterogeneous Domain Expert Ensemble
- Title(参考訳): HDEE: 異種ドメインエキスパートの集まり
- Authors: Oğuzhan Ersoy, Jari Kolehmainen, Gabriel Passamani Andrade,
- Abstract要約: いくつかの研究は、密集モデルの訓練における通信オーバーヘッドを低減し、集中化への依存を減らすことを目的としている。
通信オーバーヘッドを自然な極端に削減するというこの考え方は、従来の集中的な設定で訓練された大規模な密集モデルよりも優れていることが示されている。
評価に使用する21ドルのデータドメインのうち, 不均一なアンサンブルが20ドルで最も低いパープレキシティスコアを達成していることを示す。
- 参考スコア(独自算出の注目度): 0.3641292357963815
- License:
- Abstract: Training dense LLMs requires enormous amounts of data and centralized compute, which introduces fundamental bottlenecks and ever-growing costs for large models. Several studies aim to reduce this dependency on centralization by reducing the communication overhead of training dense models. Taking this idea of reducing communication overhead to a natural extreme, by training embarrassingly parallelizable ensembles of small independent experts, has been shown to outperform large dense models trained in traditional centralized settings. However, existing studies do not take into account underlying differences amongst data domains and treat them as monolithic, regardless of their underlying complexity, size, or distribution. In this paper, we explore the effects of introducing heterogeneity to these ensembles of domain expert models. Specifically, by allowing models within the ensemble to vary in size--as well as the number of training steps taken depending on the training data's domain--we study the effect heterogeneity has on these ensembles when evaluated against domains included in, and excluded from, the training set. We use the same compute budget to train heterogeneous ensembles and homogeneous baselines for comparison. We show that the heterogeneous ensembles achieve the lowest perplexity scores in $20$ out of the $21$ data domains used in the evaluation. Our code is available at https://github.com/gensyn-ai/hdee.
- Abstract(参考訳): 密度の高いLLMのトレーニングには膨大なデータと集中型計算が必要だ。
いくつかの研究は、高密度モデルの訓練における通信オーバーヘッドを低減し、この集中化への依存を減らすことを目的としている。
コミュニケーションオーバーヘッドを自然な極端に減らすというこの考え方は、小さな独立した専門家の恥ずかしいほどに並列化可能なアンサンブルを訓練することで、従来の集中的な環境で訓練された大規模な密集モデルよりも優れていることが示されている。
しかしながら、既存の研究では、データドメイン間の根本的な違いを考慮せず、その基盤となる複雑さ、サイズ、分散に関係なく、それらをモノリシックとして扱う。
本稿では,これらのドメインエキスパートモデルのアンサンブルに異質性を導入することの効果について検討する。
具体的には、アンサンブル内のモデルのサイズや、トレーニングデータのドメインに依存したトレーニングステップの数を変えることによって、トレーニングセットに含まれるドメインに対して不均一性がこれらのアンサンブルに与える影響を検証し、除外する。
我々は、同じ計算予算を使って異種アンサンブルと同種ベースラインを比較のために訓練する。
評価に使用する21ドルのデータドメインのうち, 不均一なアンサンブルが20ドルで最も低いパープレキシティスコアを達成していることを示す。
私たちのコードはhttps://github.com/gensyn-ai/hdee.comで公開されています。
関連論文リスト
- Deep Domain Isolation and Sample Clustered Federated Learning for Semantic Segmentation [2.515027627030043]
本稿では,2次元セグメンテーションタスクにおける参加者間の共変量変化の影響を初めて検討する。
我々は、モデルの勾配空間内で直接画像領域を分離するディープドメイン分離(DDI)を開発する。
我々は,このクラスタリングアルゴリズムをSCFL(Sample Clustered Federated Learning)フレームワークを通じて活用する。
論文 参考訳(メタデータ) (2024-10-04T12:43:07Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - FedDisco: Federated Learning with Discrepancy-Aware Collaboration [41.828780724903744]
離散性を考慮した協調学習(FedDisco)による新しいアグリゲーション手法を提案する。
当社のFedDiscoはいくつかの最先端の手法より優れており、多くの既存手法に簡単に組み込んでパフォーマンスをさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:51Z) - Diversity Boosted Learning for Domain Generalization with Large Number
of Domains [4.711430413139393]
多様性が向上したtwOレベルのsaMplingフレームワークは、ドメイン側とオブジェクト側の両方の急激な相関に対して堅牢なモデルをトレーニングするのに役立ちます。
DOMIは, 回転MNIST, 回転Fashion MNIST, およびiwildcamデータセットのスプリアス相関に対するロバストモデルのトレーニングを支援する。
論文 参考訳(メタデータ) (2022-07-28T02:58:17Z) - FedILC: Weighted Geometric Mean and Invariant Gradient Covariance for
Federated Learning on Non-IID Data [69.0785021613868]
フェデレートラーニング(Federated Learning)とは、ローカルに計算されたパラメータの更新を、空間的に分散されたクライアントサイロからトレーニングデータに集約することで、共有サーバモデルによる学習を可能にする分散機械学習アプローチである。
本研究では, 勾配の共分散とヘッセンの幾何学的平均を利用して, シロ間およびシロ内成分の両方を捕捉するフェデレート不変学習一貫性(FedILC)アプローチを提案する。
これは医療、コンピュータビジョン、IoT(Internet of Things)といった様々な分野に関係している。
論文 参考訳(メタデータ) (2022-05-19T03:32:03Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Clustered Federated Learning via Generalized Total Variation
Minimization [83.26141667853057]
本研究では,分散ネットワーク構造を持つローカルデータセットの局所的(あるいはパーソナライズされた)モデルを学習するための最適化手法について検討する。
我々の主要な概念的貢献は、総変動最小化(GTV)としてフェデレーション学習を定式化することである。
私たちのアルゴリズムの主な貢献は、完全に分散化されたフェデレーション学習アルゴリズムです。
論文 参考訳(メタデータ) (2021-05-26T18:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。