論文の概要: I/O in Machine Learning Applications on HPC Systems: A 360-degree Survey
- arxiv url: http://arxiv.org/abs/2404.10386v1
- Date: Tue, 16 Apr 2024 08:37:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 17:33:19.949718
- Title: I/O in Machine Learning Applications on HPC Systems: A 360-degree Survey
- Title(参考訳): HPCシステムにおける機械学習応用におけるI/O:360度サーベイ
- Authors: Noah Lewis, Jean Luca Bez, Suren Byna,
- Abstract要約: 過去にHPC I/Oの研究は、モデリングおよびシミュレーションアプリケーションのための基盤となるストレージシステムの最適化に重点を置いていた。
本稿では,HPCシステム上でのMLアプリケーションのI/O調査と,2019年から2024年までの6年間のタイムウインドウ内での文献の照会を行う。
本稿では、MLの一般的なフェーズの概要、利用可能なプロファイラとベンチマークのレビュー、MLトレーニング中に発生するI/Oパターンの検証、モダンなMLフレームワークで使用されるI/O最適化の探索について述べる。
- 参考スコア(独自算出の注目度): 0.9343816282846432
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-Performance Computing (HPC) systems excel in managing distributed workloads, and the growing interest in Artificial Intelligence (AI) has resulted in a surge in demand for faster methods of Machine Learning (ML) model training and inference. In the past, research on HPC I/O focused on optimizing the underlying storage system for modeling and simulation applications and checkpointing the results, causing writes to be the dominant I/O operation. These applications typically access large portions of the data written by simulations or experiments. ML workloads, in contrast, perform small I/O reads spread across a large number of random files. This shift of I/O access patterns poses several challenges to HPC storage systems. In this paper, we survey I/O in ML applications on HPC systems, and target literature within a 6-year time window from 2019 to 2024. We provide an overview of the common phases of ML, review available profilers and benchmarks, examine the I/O patterns encountered during ML training, explore I/O optimizations utilized in modern ML frameworks and proposed in recent literature, and lastly, present gaps requiring further R&D. We seek to summarize the common practices used in accessing data by ML applications and expose research gaps that could spawn further R&D.
- Abstract(参考訳): 高性能コンピューティング(HPC)システムは分散ワークロードの管理に優れており、人工知能(AI)への関心が高まり、機械学習(ML)モデルのトレーニングと推論の高速化に対する需要が高まっている。
過去にHPC I/Oの研究は、モデリングおよびシミュレーションアプリケーションのための基礎となるストレージシステムの最適化と結果をチェックポイントすることに集中しており、書き込みが支配的なI/O操作となっている。
これらのアプリケーションは通常、シミュレーションや実験によって書かれたデータの大部分にアクセスする。
対照的にMLワークロードは、多数のランダムファイルにまたがる小さなI/O読み取りを実行する。
このI/Oアクセスパターンの変化は、HPCストレージシステムにいくつかの課題をもたらす。
本稿では,HPCシステム上でのMLアプリケーションにおけるI/Oと,2019年から2024年までの6年間のタイムウインドウ内での文学を対象とした調査を行う。
本稿では、MLの共通フェーズの概要、利用可能なプロファイラとベンチマークのレビュー、MLトレーニング中に発生するI/Oパターンの検証、現代のMLフレームワークで使用されているI/O最適化の探索、最近の文献における提案、そして最後に、さらなるR&Dを必要とするギャップについて述べる。
我々は、MLアプリケーションによるデータアクセスに使用される一般的なプラクティスを要約し、さらなる研究開発を引き起こす可能性のある研究ギャップを明らかにすることを目指している。
関連論文リスト
- DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Performance Modeling and Workload Analysis of Distributed Large Language Model Training and Inference [2.2231908139555734]
本稿では,分散LLMトレーニングと推論の一般的な性能モデリング手法とワークロード解析を提案する。
文献や関連業界ベンダ(NVIDIAなど)の公開データによるパフォーマンス予測を検証する。
論文 参考訳(メタデータ) (2024-07-19T19:49:05Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - The Integration of Machine Learning into Automated Test Generation: A
Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。
MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文 参考訳(メタデータ) (2022-06-21T09:26:25Z) - A Review of Machine Learning Methods Applied to Structural Dynamics and
Vibroacoustic [0.0]
Vibroacoustic(SD&V)の主要な3つのアプリケーションが機械学習(ML)を活用している。
構造的健康モニタリングでは、ML検出と予後が安全な操作とメンテナンススケジュールの最適化につながる。
システムの識別と制御設計は、アクティブノイズ制御およびアクティブ振動制御におけるML技術によって活用される。
いわゆるMLベースのサロゲートモデルは、コストのかかるシミュレーションに代わる高速な代替手段を提供し、堅牢で最適化された製品設計を可能にする。
論文 参考訳(メタデータ) (2022-04-13T13:16:21Z) - MLPerfTM HPC: A Holistic Benchmark Suite for Scientific Machine Learning
on HPC Systems [32.621917787044396]
我々はMLCommonsTM Associationが推進する科学機械学習トレーニングアプリケーションのベンチマークスイートであるHPCを紹介する。
共同分析のための体系的なフレームワークを開発し、データステージング、アルゴリズム収束、計算性能の観点から比較する。
低レベルのメモリ、I/O、ネットワークの振る舞いに関して、各ベンチマークを特徴付けることで結論付ける。
論文 参考訳(メタデータ) (2021-10-21T20:30:12Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。