論文の概要: Venn: Resource Management for Collaborative Learning Jobs
- arxiv url: http://arxiv.org/abs/2312.08298v2
- Date: Wed, 30 Apr 2025 02:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-10 03:06:55.441215
- Title: Venn: Resource Management for Collaborative Learning Jobs
- Title(参考訳): Venn: 協調的な学習作業のためのリソース管理
- Authors: Jiachen Liu, Fan Lai, Ding Ding, Yiwen Zhang, Mosharaf Chowdhury,
- Abstract要約: コラボレーション学習(CL)は、機械学習(ML)と分散エッジデバイス間のデータサイエンスのための有望なアプローチとして登場した。
本稿では,複数のCLジョブ間で異種デバイスを効率的にスケジュールするCLリソースマネージャであるVennを紹介する。
評価の結果,最先端のCLリソースマネージャと比較して,Vennは平均JCTを最大1.88倍改善した。
- 参考スコア(独自算出の注目度): 24.596584073531886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, collaborative learning (CL) has emerged as a promising approach for machine learning (ML) and data science across distributed edge devices. As the deployment of CL jobs increases, they inevitably contend for limited resources. However, efficient resource scheduling in this context is challenging because of the ephemeral nature and resource heterogeneity of devices, coupled with the overlapping resource requirements of diverse CL jobs. Existing resource managers often assign devices to CL jobs randomly for simplicity and scalability, but this approach compromises job efficiency. In this paper, we present Venn, a CL resource manager that efficiently schedules ephemeral, heterogeneous devices among multiple CL jobs to reduce the average job completion time (JCT). Venn formulates the Intersection Resource Scheduling (IRS) problem to identify complex resource contention among multiple CL jobs. It then proposes a contention-aware scheduling heuristic to minimize the average scheduling delay. Furthermore, it proposes a resource-aware device-to-job matching heuristic to optimize response collection time by mitigating stragglers. Our evaluation shows that, compared to the state-of-the-art CL resource managers, Venn improves the average JCT by up to 1.88x. The code is available at https://github.com/SymbioticLab/Venn.
- Abstract(参考訳): 近年、コラボレーティブ・ラーニング(CL)は、機械学習(ML)と分散エッジデバイス間のデータサイエンスのための有望なアプローチとして出現している。
CLジョブのデプロイが増加するにつれて、必然的に限られたリソースと競合する。
しかし、この文脈での効率的な資源スケジューリングは、多様なCLジョブの重なり合うリソース要求と相まって、デバイスの短命な性質とリソースの不均一性のために困難である。
既存のリソースマネージャは、単純さとスケーラビリティのためにCLジョブにデバイスをランダムに割り当てることが多いが、このアプローチはジョブ効率を損なう。
本稿では、複数のCLジョブ間で短命で異質なデバイスを効率的にスケジュールし、平均ジョブ完了時間(JCT)を短縮するCLリソースマネージャであるVennを提案する。
Vennは、複数のCLジョブ間の複雑なリソース競合を特定するために、Intersection Resource Scheduling (IRS) 問題を定式化している。
次に、平均的なスケジューリング遅延を最小限に抑えるために、競合を考慮したスケジューリングヒューリスティックを提案する。
さらに、ストラグラーの緩和による応答収集時間を最適化するために、リソースを意識したデバイス間マッチングヒューリスティックを提案する。
評価の結果,最先端のCLリソースマネージャと比較して,Vennは平均JCTを最大1.88倍改善した。
コードはhttps://github.com/SymbioticLab/Venn.comで公開されている。
関連論文リスト
- Topology-aware Preemptive Scheduling for Co-located LLM Workloads [7.240168647854797]
我々は,ハイブリッドワークロードのスケジューリングのための微粒なトポロジ認識手法を開発した。
本手法は, プリエンプションの効率を大幅に向上し, LLMワークロードのスケジュール性能を55%向上させる。
論文 参考訳(メタデータ) (2024-11-18T13:26:09Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - FedLPS: Heterogeneous Federated Learning for Multiple Tasks with Local
Parameter Sharing [14.938531944702193]
局所異種共有を用いたフェデレーション学習(FedLPS)を提案する。
FedLPSは転送学習を使用して、ローカルモデルを共有エンコーダとタスク固有のエンコーダに分割することで、複数のタスクをひとつのデバイスにデプロイする。
FedLPSは最先端(SOTA)のFLフレームワークを最大4.88%上回り、計算資源消費量を21.3%減らす。
論文 参考訳(メタデータ) (2024-02-13T16:30:30Z) - RecDCL: Dual Contrastive Learning for Recommendation [65.6236784430981]
本稿では、RecDCLという2つのコントラスト学習推薦フレームワークを提案する。
RecDCLでは、FCLの目的は、ユーザとイテムの正のペアに対する冗長なソリューションを排除することである。
BCLの目的は、表現の堅牢性を高めるために出力ベクトルにコントラスト埋め込みを生成するために利用される。
論文 参考訳(メタデータ) (2024-01-28T11:51:09Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - FLrce: Resource-Efficient Federated Learning with Early-Stopping Strategy [7.963276533979389]
フェデレートラーニング(FL)がIoT(Internet of Things)で大人気
FLrceは、関係ベースのクライアント選択と早期停止戦略を備えた効率的なFLフレームワークである。
その結果,既存のFLフレームワークと比較してFLrceは計算効率を少なくとも30%,通信効率を43%向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-15T10:13:44Z) - Bridging the Gap Between Foundation Models and Heterogeneous Federated
Learning [9.198799314774437]
Federated Learning(FL)は、プライバシ保護による分散機械学習を提供し、プライベートデータを共有せずにエッジクライアントのモデルを最適化する。
ファンデーションモデル(FM)は、人工知能(AI)コミュニティにおいて、様々なタスクにまたがる例外的なパフォーマンスのために、注目を集めている。
本稿では、これらの課題に対処するため、リソース対応フェデレーション・ファンデーション・モデル(RaFFM)の適応フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T04:31:53Z) - Joint Age-based Client Selection and Resource Allocation for
Communication-Efficient Federated Learning over NOMA Networks [8.030674576024952]
FL(Federated Learning)では、分散クライアントは、自身のトレーニングデータをローカルに保持しながら、共有グローバルモデルを共同でトレーニングすることができる。
本稿では,非直交多重アクセス(NOMA)を利用した無線ネットワーク上でのFLにおける各ラウンドの総時間消費を最小化することを目的とした,クライアント選択とリソース割り当ての協調最適化問題を定式化する。
さらに、各ラウンドで選択されていないクライアントのFLモデルを予測し、FL性能をさらに向上するために、サーバサイド人工知能ニューラルネットワーク(ANN)を提案する。
論文 参考訳(メタデータ) (2023-04-18T13:58:16Z) - Automated Federated Learning in Mobile Edge Networks -- Fast Adaptation
and Convergence [83.58839320635956]
フェデレートラーニング(FL)は、モバイルエッジネットワークで機械学習モデルを分散的にトレーニングするために使用することができる。
最近のFLは、モデルに依存しないメタラーニング(MAML)フレームワークで解釈されている。
本稿は,MAMLがFLにもたらすメリットと,モバイルエッジネットワーク上でのメリットの最大化について論じる。
論文 参考訳(メタデータ) (2023-03-23T02:42:10Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - Scheduling and Aggregation Design for Asynchronous Federated Learning
over Wireless Networks [56.91063444859008]
Federated Learning(FL)は、デバイス上でのトレーニングとサーバベースのアグリゲーションを組み合わせた、協調的な機械学習フレームワークである。
FLシステムにおけるストラグラー問題に対処するために,周期的アグリゲーションを用いた非同期FL設計を提案する。
年齢認識の集約重み付け設計は,非同期FL設定における学習性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2022-12-14T17:33:01Z) - Multi-Job Intelligent Scheduling with Cross-Device Federated Learning [65.69079337653994]
フェデレートラーニング(FL)は、センシティブな生データを共有せずに、協調的なグローバル機械学習モデルのトレーニングを可能にする。
本稿では,複数のジョブを並列にトレーニングできる新しいマルチジョブFLフレームワークを提案する。
本稿では,元来の強化学習に基づくスケジューリング手法と元来のベイズ最適化に基づくスケジューリング手法を含む,複数のスケジューリング手法に基づく新しいインテリジェントスケジューリング手法を提案する。
論文 参考訳(メタデータ) (2022-11-24T06:17:40Z) - SlimFL: Federated Learning with Superposition Coding over Slimmable
Neural Networks [56.68149211499535]
フェデレートラーニング(FL)は、デバイスの分散コンピューティング機能を活用した効率的なコミュニケーションとコンピューティングのための重要な実現手段である。
本稿では、FLと幅調整可能なスリムブルニューラルネットワーク(SNN)を統合した新しい学習フレームワークを提案する。
局所モデル更新のためのグローバルモデル集約と重ね合わせ訓練(ST)に重ね合わせ符号化(SC)を併用した通信およびエネルギー効率の高いSNNベースFL(SlimFL)を提案する。
論文 参考訳(メタデータ) (2022-03-26T15:06:13Z) - How Does Cell-Free Massive MIMO Support Multiple Federated Learning
Groups? [42.63398054091038]
本研究では,複数のFLプロセスの安定動作を保証するために,セルフリーなマルチインプット多重出力(MIMO)ネットワークを提案する。
次に、マルチキャストダウンリンクおよび従来のアップリンク送信プロトコルの下でFLプロセスの繰り返しを非同期に実行する新しいスキームを開発する。
論文 参考訳(メタデータ) (2021-07-20T15:46:53Z) - Overcoming Catastrophic Forgetting with Gaussian Mixture Replay [79.0660895390689]
ガウス混合モデル(GMM)に基づく連続学習(CL)のためのリハーサルベースアプローチを提案する。
過去のタスクからサンプルを生成し,現在のトレーニングデータと統合することで,破滅的忘れ(cf)を緩和する。
複数の画像データセットでGMRを評価し,クラス別サブタスクに分割する。
論文 参考訳(メタデータ) (2021-04-19T11:41:34Z) - Rosella: A Self-Driving Distributed Scheduler for Heterogeneous Clusters [7.206919625027208]
異種クラスタにおけるタスクスケジューリングのための,新たな自律分散アプローチであるRosellaを紹介する。
Rosellaは自動的に計算環境を学習し、スケジューリングポリシーをリアルタイムで調整する。
32ノードのAWSクラスタ上で、さまざまなワークロードでRosellaを評価します。
論文 参考訳(メタデータ) (2020-10-28T20:12:29Z) - Pollux: Co-adaptive Cluster Scheduling for Goodput-Optimized Deep
Learning [61.29990368322931]
Polluxは、相互依存要因を適応的に最適化することで、ディープラーニング(DL)クラスタのスケジューリング性能を改善する。
Polluxは、最先端のDLスケジューラと比較して、平均的なジョブ完了時間を37-50%削減する。
論文 参考訳(メタデータ) (2020-08-27T16:56:48Z) - Delay Minimization for Federated Learning Over Wireless Communication
Networks [172.42768672943365]
無線通信ネットワーク上でのフェデレーション学習(FL)における遅延計算の問題について検討した。
最適解を得るために,二項探索アルゴリズムを提案する。
シミュレーションの結果,提案アルゴリズムは従来のFL法と比較して最大27.3%遅延を低減できることがわかった。
論文 参考訳(メタデータ) (2020-07-05T19:00:07Z) - Sequence-to-sequence models for workload interference [1.988145627448243]
データセンターでのジョブのスケジューリングは難しいシナリオであり、ジョブは厳しいスローダウンや実行の失敗につながるリソースを競うことができる。
現在のテクニックは、多くが機械学習とジョブモデリングを含むもので、時間にわたってワークロードの振る舞いを要約に基づいている。
本稿では,リソースや実行時間に対する行動に基づいて,データセンタ上でのジョブの協調スケジューリングをモデル化する手法を提案する。
論文 参考訳(メタデータ) (2020-06-25T14:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。