論文の概要: Venn: Resource Management Across Federated Learning Jobs
- arxiv url: http://arxiv.org/abs/2312.08298v1
- Date: Wed, 13 Dec 2023 17:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-14 14:35:34.935859
- Title: Venn: Resource Management Across Federated Learning Jobs
- Title(参考訳): venn: フェデレーション学習ジョブ全体のリソース管理
- Authors: Jiachen Liu, Fan Lai, Ding Ding, Yiwen Zhang, Mosharaf Chowdhury
- Abstract要約: 近年、フェデレーテッド・ラーニング(FL)は、機械学習(ML)と分散エッジデバイス間のデータサイエンスのための有望なアプローチとして出現している。
FLの普及に伴い、複数のFLジョブ間のリソース競合も増大している。
FLのリソースマネージャであるVennは、多くのFLジョブの中で、短命で異質なデバイスを効率的にスケジュールする。
- 参考スコア(独自算出の注目度): 26.388345708301603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, federated learning (FL) has emerged as a promising approach
for machine learning (ML) and data science across distributed edge devices.
With the increasing popularity of FL, resource contention between multiple FL
jobs training on the same device population is increasing as well. Scheduling
edge resources among multiple FL jobs is different from GPU scheduling for
cloud ML because of the ephemeral nature and planetary scale of participating
devices as well as the overlapping resource requirements of diverse FL jobs.
Existing resource managers for FL jobs opt for random assignment of devices to
FL jobs for simplicity and scalability, which leads to poor performance. In
this paper, we present Venn, an FL resource manager, that efficiently schedules
ephemeral, heterogeneous devices among many FL jobs, with the goal of reducing
their average job completion time (JCT). Venn formulates the Intersection
Resource Scheduling (IRS) problem to identify complex resource contention among
multiple FL jobs. Then, Venn proposes a contention-aware scheduling heuristic
to minimize the average scheduling delay. Furthermore, it proposes a
resource-aware device-to-job matching heuristic that focuses on optimizing
response collection time by mitigating stragglers. Our evaluation shows that,
compared to the state-of-the-art FL resource managers, Venn improves the
average JCT by up to 1.88X.
- Abstract(参考訳): 近年、分散エッジデバイス間で機械学習(ml)とデータサイエンスに有望なアプローチとして連合学習(fl)が登場している。
flの普及に伴い、同じデバイス人口での複数のflジョブトレーニング間のリソース競合も増加している。
複数のFLジョブ間のエッジリソースのスケジューリングは、さまざまなFLジョブの重なり合うリソース要件だけでなく、参加するデバイスの短命な性質と惑星スケールのため、クラウドMLのGPUスケジューリングとは異なる。
flジョブの既存のリソースマネージャは、デバイスのランダムな割り当てをflジョブに選択することで、シンプルさとスケーラビリティが向上し、パフォーマンスが低下する。
本稿では,多くのflジョブにおいて,一時的異種デバイスを効率的にスケジュールするflリソースマネージャであるvennについて,その平均ジョブ完了時間(jct)を短縮することを目的とした。
Vennは、複数のFLジョブ間の複雑なリソース競合を特定するために、Intersection Resource Scheduling (IRS) 問題を定式化する。
次に、vennは、平均スケジューリング遅延を最小限に抑えるための競合対応スケジューリングヒューリスティックを提案する。
さらに,ストラグラーの緩和による応答収集時間の最適化に着目した,リソース対応型デバイス対ジョブマッチングヒューリスティックを提案する。
現状のFLリソースマネージャと比較して,Vennは平均JCTを最大1.88倍改善している。
関連論文リスト
- Topology-aware Preemptive Scheduling for Co-located LLM Workloads [7.240168647854797]
我々は,ハイブリッドワークロードのスケジューリングのための微粒なトポロジ認識手法を開発した。
本手法は, プリエンプションの効率を大幅に向上し, LLMワークロードのスケジュール性能を55%向上させる。
論文 参考訳(メタデータ) (2024-11-18T13:26:09Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - FedLPS: Heterogeneous Federated Learning for Multiple Tasks with Local
Parameter Sharing [14.938531944702193]
局所異種共有を用いたフェデレーション学習(FedLPS)を提案する。
FedLPSは転送学習を使用して、ローカルモデルを共有エンコーダとタスク固有のエンコーダに分割することで、複数のタスクをひとつのデバイスにデプロイする。
FedLPSは最先端(SOTA)のFLフレームワークを最大4.88%上回り、計算資源消費量を21.3%減らす。
論文 参考訳(メタデータ) (2024-02-13T16:30:30Z) - RecDCL: Dual Contrastive Learning for Recommendation [65.6236784430981]
本稿では、RecDCLという2つのコントラスト学習推薦フレームワークを提案する。
RecDCLでは、FCLの目的は、ユーザとイテムの正のペアに対する冗長なソリューションを排除することである。
BCLの目的は、表現の堅牢性を高めるために出力ベクトルにコントラスト埋め込みを生成するために利用される。
論文 参考訳(メタデータ) (2024-01-28T11:51:09Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - FLrce: Resource-Efficient Federated Learning with Early-Stopping Strategy [7.963276533979389]
フェデレートラーニング(FL)がIoT(Internet of Things)で大人気
FLrceは、関係ベースのクライアント選択と早期停止戦略を備えた効率的なFLフレームワークである。
その結果,既存のFLフレームワークと比較してFLrceは計算効率を少なくとも30%,通信効率を43%向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-15T10:13:44Z) - Bridging the Gap Between Foundation Models and Heterogeneous Federated
Learning [9.198799314774437]
Federated Learning(FL)は、プライバシ保護による分散機械学習を提供し、プライベートデータを共有せずにエッジクライアントのモデルを最適化する。
ファンデーションモデル(FM)は、人工知能(AI)コミュニティにおいて、様々なタスクにまたがる例外的なパフォーマンスのために、注目を集めている。
本稿では、これらの課題に対処するため、リソース対応フェデレーション・ファンデーション・モデル(RaFFM)の適応フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T04:31:53Z) - Joint Age-based Client Selection and Resource Allocation for
Communication-Efficient Federated Learning over NOMA Networks [8.030674576024952]
FL(Federated Learning)では、分散クライアントは、自身のトレーニングデータをローカルに保持しながら、共有グローバルモデルを共同でトレーニングすることができる。
本稿では,非直交多重アクセス(NOMA)を利用した無線ネットワーク上でのFLにおける各ラウンドの総時間消費を最小化することを目的とした,クライアント選択とリソース割り当ての協調最適化問題を定式化する。
さらに、各ラウンドで選択されていないクライアントのFLモデルを予測し、FL性能をさらに向上するために、サーバサイド人工知能ニューラルネットワーク(ANN)を提案する。
論文 参考訳(メタデータ) (2023-04-18T13:58:16Z) - Automated Federated Learning in Mobile Edge Networks -- Fast Adaptation
and Convergence [83.58839320635956]
フェデレートラーニング(FL)は、モバイルエッジネットワークで機械学習モデルを分散的にトレーニングするために使用することができる。
最近のFLは、モデルに依存しないメタラーニング(MAML)フレームワークで解釈されている。
本稿は,MAMLがFLにもたらすメリットと,モバイルエッジネットワーク上でのメリットの最大化について論じる。
論文 参考訳(メタデータ) (2023-03-23T02:42:10Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Scheduling and Aggregation Design for Asynchronous Federated Learning
over Wireless Networks [56.91063444859008]
Federated Learning(FL)は、デバイス上でのトレーニングとサーバベースのアグリゲーションを組み合わせた、協調的な機械学習フレームワークである。
FLシステムにおけるストラグラー問題に対処するために,周期的アグリゲーションを用いた非同期FL設計を提案する。
年齢認識の集約重み付け設計は,非同期FL設定における学習性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-14T17:33:01Z) - Multi-Job Intelligent Scheduling with Cross-Device Federated Learning [65.69079337653994]
フェデレートラーニング(FL)は、センシティブな生データを共有せずに、協調的なグローバル機械学習モデルのトレーニングを可能にする。
本稿では,複数のジョブを並列にトレーニングできる新しいマルチジョブFLフレームワークを提案する。
本稿では,元来の強化学習に基づくスケジューリング手法と元来のベイズ最適化に基づくスケジューリング手法を含む,複数のスケジューリング手法に基づく新しいインテリジェントスケジューリング手法を提案する。
論文 参考訳(メタデータ) (2022-11-24T06:17:40Z) - SlimFL: Federated Learning with Superposition Coding over Slimmable
Neural Networks [56.68149211499535]
フェデレートラーニング(FL)は、デバイスの分散コンピューティング機能を活用した効率的なコミュニケーションとコンピューティングのための重要な実現手段である。
本稿では、FLと幅調整可能なスリムブルニューラルネットワーク(SNN)を統合した新しい学習フレームワークを提案する。
局所モデル更新のためのグローバルモデル集約と重ね合わせ訓練(ST)に重ね合わせ符号化(SC)を併用した通信およびエネルギー効率の高いSNNベースFL(SlimFL)を提案する。
論文 参考訳(メタデータ) (2022-03-26T15:06:13Z) - How Does Cell-Free Massive MIMO Support Multiple Federated Learning
Groups? [42.63398054091038]
本研究では,複数のFLプロセスの安定動作を保証するために,セルフリーなマルチインプット多重出力(MIMO)ネットワークを提案する。
次に、マルチキャストダウンリンクおよび従来のアップリンク送信プロトコルの下でFLプロセスの繰り返しを非同期に実行する新しいスキームを開発する。
論文 参考訳(メタデータ) (2021-07-20T15:46:53Z) - Overcoming Catastrophic Forgetting with Gaussian Mixture Replay [79.0660895390689]
ガウス混合モデル(GMM)に基づく連続学習(CL)のためのリハーサルベースアプローチを提案する。
過去のタスクからサンプルを生成し,現在のトレーニングデータと統合することで,破滅的忘れ(cf)を緩和する。
複数の画像データセットでGMRを評価し,クラス別サブタスクに分割する。
論文 参考訳(メタデータ) (2021-04-19T11:41:34Z) - Rosella: A Self-Driving Distributed Scheduler for Heterogeneous Clusters [7.206919625027208]
異種クラスタにおけるタスクスケジューリングのための,新たな自律分散アプローチであるRosellaを紹介する。
Rosellaは自動的に計算環境を学習し、スケジューリングポリシーをリアルタイムで調整する。
32ノードのAWSクラスタ上で、さまざまなワークロードでRosellaを評価します。
論文 参考訳(メタデータ) (2020-10-28T20:12:29Z) - Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep
Learning [61.29990368322931]
Polluxは、相互依存要因を適応的に最適化することで、ディープラーニング(DL)クラスタのスケジューリング性能を改善する。
Polluxは、最先端のDLスケジューラと比較して、平均的なジョブ完了時間を37-50%削減する。
論文 参考訳(メタデータ) (2020-08-27T16:56:48Z) - Delay Minimization for Federated Learning Over Wireless Communication
Networks [172.42768672943365]
無線通信ネットワーク上でのフェデレーション学習(FL)における遅延計算の問題について検討した。
最適解を得るために,二項探索アルゴリズムを提案する。
シミュレーションの結果,提案アルゴリズムは従来のFL法と比較して最大27.3%遅延を低減できることがわかった。
論文 参考訳(メタデータ) (2020-07-05T19:00:07Z) - Sequence-to-sequence models for workload interference [1.988145627448243]
データセンターでのジョブのスケジューリングは難しいシナリオであり、ジョブは厳しいスローダウンや実行の失敗につながるリソースを競うことができる。
現在のテクニックは、多くが機械学習とジョブモデリングを含むもので、時間にわたってワークロードの振る舞いを要約に基づいている。
本稿では,リソースや実行時間に対する行動に基づいて,データセンタ上でのジョブの協調スケジューリングをモデル化する手法を提案する。
論文 参考訳(メタデータ) (2020-06-25T14:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。