論文の概要: Statistical Quality and Reproducibility of Pseudorandom Number Generators in Machine Learning technologies
- arxiv url: http://arxiv.org/abs/2507.03007v1
- Date: Wed, 02 Jul 2025 09:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.523975
- Title: Statistical Quality and Reproducibility of Pseudorandom Number Generators in Machine Learning technologies
- Title(参考訳): 機械学習技術における擬似乱数発生器の統計的品質と再現性
- Authors: Benjamin A. Antunes,
- Abstract要約: MLフレームワークで使用されるPRNGの統計的品質を、元のC実装と比較する。
我々の発見は統計的堅牢性の主張に挑戦し、'crush-resistant'(例えばPCG、フィロックス)とラベル付けされた発電機でさえ、ある統計検査に失敗する可能性があることを明らかにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) frameworks rely heavily on pseudorandom number generators (PRNGs) for tasks such as data shuffling, weight initialization, dropout, and optimization. Yet, the statistical quality and reproducibility of these generators-particularly when integrated into frameworks like PyTorch, TensorFlow, and NumPy-are underexplored. In this paper, we compare the statistical quality of PRNGs used in ML frameworks (Mersenne Twister, PCG, and Philox) against their original C implementations. Using the rigorous TestU01 BigCrush test suite, we evaluate 896 independent random streams for each generator. Our findings challenge claims of statistical robustness, revealing that even generators labeled ''crush-resistant'' (e.g., PCG, Philox) may fail certain statistical tests. Surprisingly, we can observe some differences in failure profiles between the native and framework-integrated versions of the same algorithm, highlighting some implementation differences that may exist.
- Abstract(参考訳): 機械学習(ML)フレームワークは、データシャッフル、重み付け初期化、ドロップアウト、最適化といったタスクに対して、擬似乱数生成(PRNG)に大きく依存している。
しかし、これらのジェネレータの統計的品質と再現性は、特にPyTorch、TensorFlow、NumPyのようなフレームワークに統合された場合、未調査である。
本稿では,MLフレームワーク(Mersenne Twister, PCG, Philox)で使用されるPRNGの統計的品質を,オリジナルのC実装と比較する。
厳密なTestU01 BigCrushテストスイートを用いて、各ジェネレータに対して896個の独立したランダムストリームを評価する。
以上の結果から,'crush-resistant' (例: PCG, Philox) とラベル付けされた発電機でさえ,一定の統計的検査に失敗する可能性が示唆された。
驚くべきことに、同じアルゴリズムのネイティブバージョンとフレームワーク統合バージョンの間には、障害プロファイルの違いがいくつか見られ、存在するかもしれない実装の違いが浮き彫りになっている。
関連論文リスト
- Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。
既存のアプローチは、高品質なデータによる教師付き微調整に依存している。
本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文 参考訳(メタデータ) (2025-05-29T16:15:36Z) - Efficient Quality Estimation of True Random Bit-streams [5.441027708840589]
本稿では,真のランダムビットストリームにおける異常検出のためのオンライン手順の実装とその特徴について報告する。
このアプローチの実験的検証は、量子シリコンベースのエントロピー源によって生成されたビットストリーム上で実行される。
論文 参考訳(メタデータ) (2024-09-09T12:09:17Z) - Transformer models as an efficient replacement for statistical test suites to evaluate the quality of random numbers [0.0]
我々は,複数のNIST STSテストを一度に実行し,より高速に実行するディープラーニングモデルを提案する。
このモデルでは,これらの統計的試験に合格して,複数ラベルの分類結果を出力する。
また,このモデルと従来の深層学習法を比較し,そのモデルが類似した性能を示した。
論文 参考訳(メタデータ) (2024-05-06T23:36:03Z) - To what extent are multiple pendulum systems viable in pseudo-random number generation? [0.0]
本稿では,代替擬似乱数生成器(PRNG)の開発と実現可能性について検討する。
従来のPRNG(特にJava.Randomクラスで実装されたもの)は、エクスプロイラビリティを引き起こす予測可能性に悩まされている。
本研究では,通常の微分方程式,物理モデリング,カオス理論を用いて設計された新しいPRNGを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:28:51Z) - Statistical testing of random number generators and their improvement using randomness extraction [0.0]
乱数生成器(RNG)は、特に暗号アプリケーションにおいて、構築とテストが難しいことで知られている。
我々はRNG出力品質を改善するためにランダム性抽出器を用いて様々な後処理手法を設計、実装、提示する。
既存のテストスイートに基づいた総合的な統計的テスト環境を導入し、軽量(高速)なテストから集中的なテストにパラメトリできる。
論文 参考訳(メタデータ) (2024-03-27T16:05:02Z) - Reproducibility, energy efficiency and performance of pseudorandom
number generators in machine learning: a comparative study of python, numpy,
tensorflow, and pytorch implementations [0.0]
Pseudo-Random Number Generators (PRNGs) は、機械学習技術において多くの手法に興味深いため、ユビキタスになった。
本研究では,Pseudo-Random Number Generators (PRNGs) を機械学習言語,ライブラリ,フレームワークで採用し,オリジナルのC実装と比較して統計的品質と数値を高く評価するかどうかを検討する。
論文 参考訳(メタデータ) (2024-01-30T15:44:14Z) - Simplex Random Features [53.97976744884616]
ソフトマックスおよびガウスカーネルの非バイアス近似のための新しいランダム特徴(RF)機構であるSimplex Random Features (SimRFs)を提案する。
我々は,これらのカーネルの非バイアス推定値に対して,SimRFが最小平均二乗誤差(MSE)を提供することを示す。
ポイントワイドカーネル推定,非パラメトリック分類,スケーラブルトランスフォーマーなどの設定において,SimRFによる一貫したゲインを示す。
論文 参考訳(メタデータ) (2023-01-31T18:53:39Z) - Testing randomness of series generated in Bell's experiment [62.997667081978825]
おもちゃの光ファイバーをベースとしたセットアップを用いてバイナリシリーズを生成し、そのランダム度をVilleの原理に従って評価する。
標準統計指標の電池、ハースト、コルモゴロフ複雑性、最小エントロピー、埋め込みのTakensarity次元、および拡張ディッキー・フラーとクワイアトコフスキー・フィリップス・シュミット・シン(英語版)でテストされ、ステーション指数をチェックする。
Toeplitz 抽出器を不規則級数に適用することにより得られる系列のランダム性のレベルは、非還元原料のレベルと区別できない。
論文 参考訳(メタデータ) (2022-08-31T17:39:29Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。