論文の概要: TDML -- A Trustworthy Distributed Machine Learning Framework
- arxiv url: http://arxiv.org/abs/2407.07339v1
- Date: Wed, 10 Jul 2024 03:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 18:01:18.558095
- Title: TDML -- A Trustworthy Distributed Machine Learning Framework
- Title(参考訳): TDML - 信頼できる分散機械学習フレームワーク
- Authors: Zhen Wang, Qin Wang, Guangsheng Yu, Shiping Chen,
- Abstract要約: 大規模モデル(LM)の急速な進歩は、計算資源の需要を増大させた。
この需要は、サプライチェーンの遅延と大手テック企業による独占的な買収により、可用性の限界によって悪化している。
本稿では、リモートトレーナーのコーディネートとワークロードの検証にガイダンスを活用する、テキスト信頼に値する分散機械学習(TDML)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.302091381583343
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent years have witnessed a surge in deep learning research, marked by the introduction of expansive generative models like OpenAI's SORA and GPT, Meta AI's LLAMA series, and Google's FLAN, BART, and Gemini models. However, the rapid advancement of large models (LM) has intensified the demand for computing resources, particularly GPUs, which are crucial for their parallel processing capabilities. This demand is exacerbated by limited GPU availability due to supply chain delays and monopolistic acquisition by major tech firms. Distributed Machine Learning (DML) methods, such as Federated Learning (FL), mitigate these challenges by partitioning data and models across multiple servers, though implementing optimizations like tensor and pipeline parallelism remains complex. Blockchain technology emerges as a promising solution, ensuring data integrity, scalability, and trust in distributed computing environments, but still lacks guidance on building practical DML systems. In this paper, we propose a \textit{trustworthy distributed machine learning} (TDML) framework that leverages blockchain to coordinate remote trainers and validate workloads, achieving privacy, transparency, and efficient model training across public remote computing resources. Experimental validation demonstrates TDML's efficacy in overcoming performance limitations and malicious node detection, positioning it as a robust solution for scalable and secure distributed machine learning.
- Abstract(参考訳): 近年では、OpenAIのSORAやGPT、Meta AIのLAMAシリーズ、GoogleのFLAN、BART、Geminiモデルといった拡張可能な生成モデルが導入され、ディープラーニングの研究が急増している。
しかし、大規模モデル(LM)の急速な進歩は、計算資源、特に並列処理能力に不可欠なGPUの需要を増大させてきた。
この需要は、サプライチェーンの遅延と大手テック企業による独占的な買収により、GPUの可用性が制限されていることで悪化している。
フェデレートラーニング(FL)のような分散機械学習(DML)メソッドは、テンソルやパイプラインの並列性といった最適化を実装しながら、複数のサーバにまたがるデータとモデルを分割することで、これらの課題を軽減する。
ブロックチェーン技術は、データ完全性、スケーラビリティ、分散コンピューティング環境への信頼を保証する、有望なソリューションとして登場しますが、実用的なDMLシステムを構築するためのガイダンスはありません。
本稿では、ブロックチェーンを活用し、リモートトレーナーのコーディネートとワークロードの検証、プライバシ、透明性、パブリックなリモートコンピューティングリソース間の効率的なモデルトレーニングを実現するための、‘textit{trustworthy distributed machine learning}(TDML)フレームワークを提案する。
実験的検証は、TDMLがパフォーマンス制限と悪意のあるノード検出を克服する効果を示し、スケーラブルでセキュアな分散機械学習のための堅牢なソリューションとして位置づけている。
関連論文リスト
- MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - A Blockchain-empowered Multi-Aggregator Federated Learning Architecture
in Edge Computing with Deep Reinforcement Learning Optimization [8.082460100928358]
フェデレーテッド・ラーニング(FL)は、機械学習アーキテクチャの追求の結果として登場した。
ネットワークインフラの進歩により、FLはエッジコンピューティングにシームレスに統合された。
ブロックチェーン技術はセキュリティを強化することを約束するが、リソース制約のあるエッジデバイスへの実践的なデプロイは依然として課題だ。
論文 参考訳(メタデータ) (2023-10-14T20:47:30Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Experimenting with Emerging RISC-V Systems for Decentralised Machine
Learning [12.18598759507803]
分散機械学習(DML)は、集中的な入力データなしで協調的な機械学習を可能にする。
DMLスキームを基盤となる並列プログラミングライブラリにマップする。
我々は x86-64 と ARM プラットフォーム上で動作可能な DML スキームと RISC-V プラットフォームを作成して実験を行った。
副産物として、PyTorchフレームワークのRISC-V移植を紹介します。
論文 参考訳(メタデータ) (2023-02-15T20:57:42Z) - Latency Optimization for Blockchain-Empowered Federated Learning in
Multi-Server Edge Computing [24.505675843652448]
本稿では,マルチサーバエッジコンピューティングにおけるフェデレーション学習(BFL)のための新しいレイテンシ最適化問題について検討する。
このシステムモデルでは、分散モバイルデバイス(MD)がエッジサーバ(ES)と通信し、機械学習(ML)モデルのトレーニングとブロックマイニングの両方を同時に処理する。
論文 参考訳(メタデータ) (2022-03-18T00:38:29Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Clairvoyant Prefetching for Distributed Machine Learning I/O [9.490118207943192]
I/Oは、特にクラウドやスーパーコンピュータのような分散環境において、機械学習トレーニングの大きなボトルネックとして現れています。
我々は、新しい機械学習I/O、HDMLPを作成し、I/Oボトルネックに取り組む。
HDMLPは、最先端のアプローチよりも優れたパフォーマンスを提供する、使いやすい、柔軟でスケーラブルなソリューションを提供します。
論文 参考訳(メタデータ) (2021-01-21T17:21:42Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。