論文の概要: Reproducibility, energy efficiency and performance of pseudorandom
number generators in machine learning: a comparative study of python, numpy,
tensorflow, and pytorch implementations
- arxiv url: http://arxiv.org/abs/2401.17345v2
- Date: Sat, 10 Feb 2024 12:09:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 20:30:25.336872
- Title: Reproducibility, energy efficiency and performance of pseudorandom
number generators in machine learning: a comparative study of python, numpy,
tensorflow, and pytorch implementations
- Title(参考訳): 機械学習における擬似乱数生成器の再現性、エネルギー効率、性能:python, numpy, tensorflow, pytorchの実装の比較研究
- Authors: Benjamin Antunes, David R.C Hill
- Abstract要約: Pseudo-Random Number Generators (PRNGs) は、機械学習技術において多くの手法に興味深いため、ユビキタスになった。
本研究では,Pseudo-Random Number Generators (PRNGs) を機械学習言語,ライブラリ,フレームワークで採用し,オリジナルのC実装と比較して統計的品質と数値を高く評価するかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pseudo-Random Number Generators (PRNGs) have become ubiquitous in machine
learning technologies because they are interesting for numerous methods. The
field of machine learning holds the potential for substantial advancements
across various domains, as exemplified by recent breakthroughs in Large
Language Models (LLMs). However, despite the growing interest, persistent
concerns include issues related to reproducibility and energy consumption.
Reproducibility is crucial for robust scientific inquiry and explainability,
while energy efficiency underscores the imperative to conserve finite global
resources. This study delves into the investigation of whether the leading
Pseudo-Random Number Generators (PRNGs) employed in machine learning languages,
libraries, and frameworks uphold statistical quality and numerical
reproducibility when compared to the original C implementation of the
respective PRNG algorithms. Additionally, we aim to evaluate the time
efficiency and energy consumption of various implementations. Our experiments
encompass Python, NumPy, TensorFlow, and PyTorch, utilizing the Mersenne
Twister, PCG, and Philox algorithms. Remarkably, we verified that the temporal
performance of machine learning technologies closely aligns with that of
C-based implementations, with instances of achieving even superior
performances. On the other hand, it is noteworthy that ML technologies consumed
only 10% more energy than their C-implementation counterparts. However, while
statistical quality was found to be comparable, achieving numerical
reproducibility across different platforms for identical seeds and algorithms
was not achieved.
- Abstract(参考訳): Pseudo-Random Number Generators (PRNGs) は、機械学習技術において多くの手法に興味深いため、ユビキタスになった。
機械学習の分野は、近年の大規模言語モデル(llm)のブレークスルーの例のように、さまざまな領域で大きく進歩する可能性を秘めている。
しかしながら、関心が高まっているにもかかわらず、持続的な懸念は再現性やエネルギー消費に関する問題を含んでいる。
再現性は、堅牢な科学的調査と説明可能性に不可欠であり、エネルギー効率は有限な地球資源の保存を必須とする。
本研究は,Pseudo-Random Number Generators (PRNGs) が,各PRNGアルゴリズムのオリジナルのC実装と比較して,統計的品質と数値再現性を裏付ける機械学習言語,ライブラリ,フレームワークに採用されているかどうかを考察する。
さらに, 各種実装の時間効率とエネルギー消費を評価することを目的とする。
我々の実験にはPython、NumPy、TensorFlow、PyTorchが含まれており、Mersenne Twister、PCG、Philoxアルゴリズムを利用している。
注目すべきは、機械学習技術の時間的性能がCベースの実装と密接に一致していることであり、さらに優れたパフォーマンスを達成する事例である。
一方で、ml技術がc実装技術よりも10%のエネルギーを消費していることは注目に値する。
しかし, 統計的品質は同等であることがわかったが, 同一の種とアルゴリズムの異なるプラットフォーム間で数値再現性は得られなかった。
関連論文リスト
- Impacts of floating-point non-associativity on reproducibility for HPC and deep learning applications [0.0]
浮動小数点非連想性に起因する並列プログラムにおける変数の実行は、アルゴリズムに大きな影響を与えることが知られている。
並列プログラミングモデルにおける浮動小数点非連想性の統計的性質について検討する。
我々は、ディープラーニングのためのGPUデプロイメントのコンテキスト内で、最近追加されたPyTorchの決定論的オプションについて検討する。
論文 参考訳(メタデータ) (2024-08-09T16:07:37Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Quantum Generative Modeling of Sequential Data with Trainable Token
Embedding [0.0]
ボルンマシンとして知られる量子インスパイアされた生成モデルは、古典的および量子的データの学習において大きな進歩を見せている。
本稿では,MPSを同時に使用可能なトレーニング可能な量子計測演算子への埋め込み法を一般化する。
私たちの研究は、トレーニング可能な埋め込みと組み合わせることで、Bornマシンはより良いパフォーマンスを示し、データセットからより深い相関関係を学習できることを示した。
論文 参考訳(メタデータ) (2023-11-08T22:56:37Z) - Using Machine Learning To Identify Software Weaknesses From Software
Requirement Specifications [49.1574468325115]
本研究は、要求仕様からソフトウェア弱点を特定するための効率的な機械学習アルゴリズムを見つけることに焦点を当てる。
ProMISE_exp. Naive Bayes、サポートベクターマシン(SVM)、決定木、ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)アルゴリズムをテストした。
論文 参考訳(メタデータ) (2023-08-10T13:19:10Z) - A Comparative Study of Machine Learning Algorithms for Anomaly Detection
in Industrial Environments: Performance and Environmental Impact [62.997667081978825]
本研究は,環境の持続可能性を考慮した高性能機械学習モデルの要求に応えることを目的としている。
Decision TreesやRandom Forestsといった従来の機械学習アルゴリズムは、堅牢な効率性とパフォーマンスを示している。
しかし, 資源消費の累積増加にもかかわらず, 最適化された構成で優れた結果が得られた。
論文 参考訳(メタデータ) (2023-07-01T15:18:00Z) - Multi-Fidelity Active Learning with GFlowNets [65.91555804996203]
本稿では,GFlowNetsをサンプルとして多要素能動学習アルゴリズムを提案する。
分子探索タスクの評価は,GFlowNetsを用いた多要素能動学習が,その単要素の予算のごく一部で高い評価の候補を発見できることを示す。
論文 参考訳(メタデータ) (2023-06-20T17:43:42Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Performance and Energy Consumption of Parallel Machine Learning
Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。
機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。
トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文 参考訳(メタデータ) (2023-05-01T13:04:39Z) - Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。
我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文 参考訳(メタデータ) (2022-09-29T08:16:52Z) - Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。
本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文 参考訳(メタデータ) (2022-09-05T16:48:34Z) - Performance Analysis and Comparison of Machine and Deep Learning
Algorithms for IoT Data Classification [0.0]
本稿では,6つのIoT関連データセットを用いた分類タスクにおいて,11の一般的な機械学習アルゴリズムとディープラーニングアルゴリズムの性能評価を行う。
すべてのパフォーマンス指標を考慮すると、Random Forestsは他の機械学習モデルよりも優れており、ディープラーニングモデルのうち、ANNとCNNはより興味深い結果を得た。
論文 参考訳(メタデータ) (2020-01-27T09:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。