Fugu-MT 論文翻訳(概要): I/O in Machine Learning Applications on HPC Systems: A 360-degree Survey

論文の概要: I/O in Machine Learning Applications on HPC Systems: A 360-degree Survey

arxiv url: http://arxiv.org/abs/2404.10386v1
Date: Tue, 16 Apr 2024 08:37:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 17:33:19.949718
Title: I/O in Machine Learning Applications on HPC Systems: A 360-degree Survey
Title（参考訳）: HPCシステムにおける機械学習応用におけるI/O:360度サーベイ
Authors: Noah Lewis, Jean Luca Bez, Suren Byna,
Abstract要約: 過去にHPC I/Oの研究は、モデリングおよびシミュレーションアプリケーションのための基盤となるストレージシステムの最適化に重点を置いていた。本稿では,HPCシステム上でのMLアプリケーションのI/O調査と,2019年から2024年までの6年間のタイムウインドウ内での文献の照会を行う。本稿では、MLの一般的なフェーズの概要、利用可能なプロファイラとベンチマークのレビュー、MLトレーニング中に発生するI/Oパターンの検証、モダンなMLフレームワークで使用されるI/O最適化の探索について述べる。
参考スコア（独自算出の注目度）: 0.9343816282846432
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: High-Performance Computing (HPC) systems excel in managing distributed workloads, and the growing interest in Artificial Intelligence (AI) has resulted in a surge in demand for faster methods of Machine Learning (ML) model training and inference. In the past, research on HPC I/O focused on optimizing the underlying storage system for modeling and simulation applications and checkpointing the results, causing writes to be the dominant I/O operation. These applications typically access large portions of the data written by simulations or experiments. ML workloads, in contrast, perform small I/O reads spread across a large number of random files. This shift of I/O access patterns poses several challenges to HPC storage systems. In this paper, we survey I/O in ML applications on HPC systems, and target literature within a 6-year time window from 2019 to 2024. We provide an overview of the common phases of ML, review available profilers and benchmarks, examine the I/O patterns encountered during ML training, explore I/O optimizations utilized in modern ML frameworks and proposed in recent literature, and lastly, present gaps requiring further R&D. We seek to summarize the common practices used in accessing data by ML applications and expose research gaps that could spawn further R&D.
Abstract（参考訳）: 高性能コンピューティング(HPC)システムは分散ワークロードの管理に優れており、人工知能(AI)への関心が高まり、機械学習(ML)モデルのトレーニングと推論の高速化に対する需要が高まっている。過去にHPC I/Oの研究は、モデリングおよびシミュレーションアプリケーションのための基礎となるストレージシステムの最適化と結果をチェックポイントすることに集中しており、書き込みが支配的なI/O操作となっている。これらのアプリケーションは通常、シミュレーションや実験によって書かれたデータの大部分にアクセスする。対照的にMLワークロードは、多数のランダムファイルにまたがる小さなI/O読み取りを実行する。このI/Oアクセスパターンの変化は、HPCストレージシステムにいくつかの課題をもたらす。本稿では,HPCシステム上でのMLアプリケーションにおけるI/Oと,2019年から2024年までの6年間のタイムウインドウ内での文学を対象とした調査を行う。本稿では、MLの共通フェーズの概要、利用可能なプロファイラとベンチマークのレビュー、MLトレーニング中に発生するI/Oパターンの検証、現代のMLフレームワークで使用されているI/O最適化の探索、最近の文献における提案、そして最後に、さらなるR&Dを必要とするギャップについて述べる。我々は、MLアプリケーションによるデータアクセスに使用される一般的なプラクティスを要約し、さらなる研究開発を引き起こす可能性のある研究ギャップを明らかにすることを目指している。

関連論文リスト

Adaptive Machine Learning for Resource-Constrained Environments [1.2487037582320804]
この研究は、時間とともに動的に利用できることによる、小さなゲートウェイでのオフロードの課題に取り組みます。ゲートウェイの可用性を予測するために,オンラインおよび継続的機械学習技術を用いたCPU利用メトリクスを活用するアプローチを提案する。
論文参考訳（メタデータ） (2025-03-24T12:52:26Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
Performance Modeling and Workload Analysis of Distributed Large Language Model Training and Inference [2.2231908139555734]
本稿では,分散LLMトレーニングと推論の一般的な性能モデリング手法とワークロード解析を提案する。文献や関連業界ベンダ(NVIDIAなど)の公開データによるパフォーマンス予測を検証する。
論文参考訳（メタデータ） (2024-07-19T19:49:05Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement Learning Approach [58.911515417156174]
我々は情報時代(AoI)の新たな定義を提案し、再定義されたAoIに基づいて、MECシステムにおけるオンラインAoI問題を定式化する。本稿では,システム力学の部分的知識を活用するために,PDS(Post-Decision State)を導入する。また、PSDと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。
論文参考訳（メタデータ） (2023-12-01T01:30:49Z)
Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文参考訳（メタデータ） (2023-10-04T20:27:20Z)
In Situ Framework for Coupling Simulation and Machine Learning with Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文参考訳（メタデータ） (2023-06-22T14:07:54Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
Privacy Adhering Machine Un-learning in NLP [66.17039929803933]
現実の業界では、機械学習を使ってユーザデータに基づくモデルを構築します。このような委任事項には、データだけでなく、モデルの再トレーニングにも労力が要る。データの継続的な削除とモデル再訓練のステップはスケールしませんこの課題に対処するために、textitMachine Unlearningを提案する。
論文参考訳（メタデータ） (2022-12-19T16:06:45Z)
A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。 MLモデルは古いデータをよく記憶します。機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文参考訳（メタデータ） (2022-09-06T08:51:53Z)
The Integration of Machine Learning into Automated Test Generation: A Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。 MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文参考訳（メタデータ） (2022-06-21T09:26:25Z)
A Review of Machine Learning Methods Applied to Structural Dynamics and Vibroacoustic [0.0]
Vibroacoustic(SD&V)の主要な3つのアプリケーションが機械学習(ML)を活用している。構造的健康モニタリングでは、ML検出と予後が安全な操作とメンテナンススケジュールの最適化につながる。システムの識別と制御設計は、アクティブノイズ制御およびアクティブ振動制御におけるML技術によって活用される。いわゆるMLベースのサロゲートモデルは、コストのかかるシミュレーションに代わる高速な代替手段を提供し、堅牢で最適化された製品設計を可能にする。
論文参考訳（メタデータ） (2022-04-13T13:16:21Z)
The MIT Supercloud Workload Classification Challenge [10.458111248130944]
本稿では,MIT Supercloudデータセットに基づくワークロード分類の課題について述べる。この課題の目標は、計算ワークロードの分析におけるアルゴリズムのイノベーションを促進することである。
論文参考訳（メタデータ） (2022-04-12T14:28:04Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
MLPerfTM HPC: A Holistic Benchmark Suite for Scientific Machine Learning on HPC Systems [32.621917787044396]
我々はMLCommonsTM Associationが推進する科学機械学習トレーニングアプリケーションのベンチマークスイートであるHPCを紹介する。共同分析のための体系的なフレームワークを開発し、データステージング、アルゴリズム収束、計算性能の観点から比較する。低レベルのメモリ、I/O、ネットワークの振る舞いに関して、各ベンチマークを特徴付けることで結論付ける。
論文参考訳（メタデータ） (2021-10-21T20:30:12Z)
A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文参考訳（メタデータ） (2020-08-10T06:07:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。