論文の概要: I/O in Machine Learning Applications on HPC Systems: A 360-degree Survey
- arxiv url: http://arxiv.org/abs/2404.10386v2
- Date: Fri, 07 Mar 2025 15:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:23:07.457752
- Title: I/O in Machine Learning Applications on HPC Systems: A 360-degree Survey
- Title(参考訳): HPCシステムにおける機械学習応用におけるI/O:360度サーベイ
- Authors: Noah Lewis, Jean Luca Bez, Surendra Byna,
- Abstract要約: データはAIアプリケーションの主要な燃料であり、HPCシステムのストレージとI/Oサブシステムのパフォーマンスは重要である。
本稿では,HPCシステム上でのMLアプリケーションにおけるI/Oと,2019年から2024年までの6年間のタイムウインドウ内での文学を対象とした調査を行う。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Growing interest in Artificial Intelligence (AI) has resulted in a surge in demand for faster methods of Machine Learning (ML) model training and inference. This demand for speed has prompted the use of high performance computing (HPC) systems that excel in managing distributed workloads. Because data is the main fuel for AI applications, the performance of the storage and I/O subsystem of HPC systems is critical. In the past, HPC applications accessed large portions of data written by simulations or experiments or ingested data for visualizations or analysis tasks. ML workloads perform small reads spread across a large number of random files. This shift of I/O access patterns poses several challenges to modern parallel storage systems. In this paper, we survey I/O in ML applications on HPC systems, and target literature within a 6-year time window from 2019 to 2024. We define the scope of the survey, provide an overview of the common phases of ML, review available profilers and benchmarks, examine the I/O patterns encountered during offline data preparation, training, and inference, and explore I/O optimizations utilized in modern ML frameworks and proposed in recent literature. Lastly, we seek to expose research gaps that could spawn further R&D.
- Abstract(参考訳): 人工知能(AI)への関心が高まり、機械学習(ML)モデルのトレーニングと推論の高速化に対する需要が高まっている。
この速度の要求は、分散ワークロードの管理に優れたハイパフォーマンスコンピューティング(HPC)システムの使用を促した。
データはAIアプリケーションの主要な燃料であるため、HPCシステムのストレージとI/Oサブシステムの性能は重要である。
これまでHPCアプリケーションは、シミュレーションや実験によって書かれた大量のデータにアクセスしたり、視覚化や分析タスクのためにデータを取り込みました。
MLワークロードは、多数のランダムファイルにまたがる小さな読み込みを実行する。
このI/Oアクセスパターンの変化は、現代の並列ストレージシステムにいくつかの課題をもたらす。
本稿では,HPCシステム上でのMLアプリケーションにおけるI/Oと,2019年から2024年までの6年間のタイムウインドウ内での文学を対象とした調査を行う。
調査の範囲を定義し、MLの共通フェーズの概要、利用可能なプロファイラとベンチマークのレビュー、オフラインデータ準備、トレーニング、推論で発生するI/Oパターンの検証、最新のMLフレームワークで使用されるI/O最適化の探索、最近の文献で提案されている。
最後に、さらなる研究開発を引き起こす可能性のある研究のギャップを明らかにすることを模索する。
関連論文リスト
- DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Performance Modeling and Workload Analysis of Distributed Large Language Model Training and Inference [2.2231908139555734]
本稿では,分散LLMトレーニングと推論の一般的な性能モデリング手法とワークロード解析を提案する。
文献や関連業界ベンダ(NVIDIAなど)の公開データによるパフォーマンス予測を検証する。
論文 参考訳(メタデータ) (2024-07-19T19:49:05Z) - Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement
Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。
本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。
また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文 参考訳(メタデータ) (2023-12-01T01:30:49Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - The Integration of Machine Learning into Automated Test Generation: A
Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。
MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文 参考訳(メタデータ) (2022-06-21T09:26:25Z) - A Review of Machine Learning Methods Applied to Structural Dynamics and
Vibroacoustic [0.0]
Vibroacoustic(SD&V)の主要な3つのアプリケーションが機械学習(ML)を活用している。
構造的健康モニタリングでは、ML検出と予後が安全な操作とメンテナンススケジュールの最適化につながる。
システムの識別と制御設計は、アクティブノイズ制御およびアクティブ振動制御におけるML技術によって活用される。
いわゆるMLベースのサロゲートモデルは、コストのかかるシミュレーションに代わる高速な代替手段を提供し、堅牢で最適化された製品設計を可能にする。
論文 参考訳(メタデータ) (2022-04-13T13:16:21Z) - MLPerfTM HPC: A Holistic Benchmark Suite for Scientific Machine Learning
on HPC Systems [32.621917787044396]
我々はMLCommonsTM Associationが推進する科学機械学習トレーニングアプリケーションのベンチマークスイートであるHPCを紹介する。
共同分析のための体系的なフレームワークを開発し、データステージング、アルゴリズム収束、計算性能の観点から比較する。
低レベルのメモリ、I/O、ネットワークの振る舞いに関して、各ベンチマークを特徴付けることで結論付ける。
論文 参考訳(メタデータ) (2021-10-21T20:30:12Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。