論文の概要: On Using Quasirandom Sequences in Machine Learning for Model Weight Initialization
- arxiv url: http://arxiv.org/abs/2408.02654v1
- Date: Mon, 5 Aug 2024 17:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 12:56:48.515849
- Title: On Using Quasirandom Sequences in Machine Learning for Model Weight Initialization
- Title(参考訳): モデル重み初期化のための機械学習における擬似乱数列の利用について
- Authors: Andriy Miranskyy, Adam Sorrenti, Viral Thakar,
- Abstract要約: 本研究では,低分解能準ランダム数生成器(QRNG)のPRNGを初期化器のランダム性源として置換することで,モデル性能が向上するかどうかを検討する。
以上の結果から,QRNGベースのニューラルネットワーク初期化器は,PRNGベースの初期化器よりも高い精度に達するか,より高速に同じ精度が得られることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The effectiveness of training neural networks directly impacts computational costs, resource allocation, and model development timelines in machine learning applications. An optimizer's ability to train the model adequately (in terms of trained model performance) depends on the model's initial weights. Model weight initialization schemes use pseudorandom number generators (PRNGs) as a source of randomness. We investigate whether substituting PRNGs for low-discrepancy quasirandom number generators (QRNGs) -- namely Sobol' sequences -- as a source of randomness for initializers can improve model performance. We examine Multi-Layer Perceptrons (MLP), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM), and Transformer architectures trained on MNIST, CIFAR-10, and IMDB datasets using SGD and Adam optimizers. Our analysis uses ten initialization schemes: Glorot, He, Lecun (both Uniform and Normal); Orthogonal, Random Normal, Truncated Normal, and Random Uniform. Models with weights set using PRNG- and QRNG-based initializers are compared pairwise for each combination of dataset, architecture, optimizer, and initialization scheme. Our findings indicate that QRNG-based neural network initializers either reach a higher accuracy or achieve the same accuracy more quickly than PRNG-based initializers in 60% of the 120 experiments conducted. Thus, using QRNG-based initializers instead of PRNG-based initializers can speed up and improve model training.
- Abstract(参考訳): ニューラルネットワークのトレーニングの有効性は、機械学習アプリケーションにおける計算コスト、リソース割り当て、モデル開発タイムラインに直接影響を与える。
モデルの適切な訓練(訓練されたモデル性能の観点から)を行うオプティマイザの能力は、モデルの初期重みに依存する。
モデルウェイト初期化スキームはランダム性の源として擬似乱数生成器(PRNG)を用いる。
本研究では,低分解能準ランダム数生成器 (QRNG) のPRNGを初期化器のランダム性源として置換することで,モデル性能が向上するかどうかを考察する。
我々は、MNIST、CIFAR-10、IMDBデータセットをSGDとAdamオプティマイザを用いてトレーニングしたマルチ層パーセプトロン(MLP)、畳み込みニューラルネットワーク(CNN)、Long Short-Term Memory(LSTM)、およびTransformerアーキテクチャについて検討した。
我々の分析では、Grorot, He, Lecun (Uniform and Normal)、Orthogonal, Random Normal, Truncated Normal, Random Uniformの10種類の初期化スキームを用いている。
PRNGおよびQRNGベースの初期化器を用いて設定した重み付きモデルは、データセット、アーキテクチャ、オプティマイザ、初期化スキームの各組み合わせに対してペアワイズに比較される。
以上の結果から,QRNGをベースとしたニューラルネットワーク初期化器は,120実験の60%において,PRNGをベースとした初期化器よりも高い精度を達成するか,同じ精度を達成するかのどちらかが示唆された。
したがって、PRNGベースのイニシャライザの代わりにQRNGベースのイニシャライザを使用することで、モデルトレーニングの高速化と改善が可能になる。
関連論文リスト
- Transformer models as an efficient replacement for statistical test suites to evaluate the quality of random numbers [0.0]
我々は,複数のNIST STSテストを一度に実行し,より高速に実行するディープラーニングモデルを提案する。
このモデルでは,これらの統計的試験に合格して,複数ラベルの分類結果を出力する。
また,このモデルと従来の深層学習法を比較し,そのモデルが類似した性能を示した。
論文 参考訳(メタデータ) (2024-05-06T23:36:03Z) - Universal Neural Functionals [67.80283995795985]
多くの現代の機械学習タスクでは、ウェイトスペース機能を処理することが難しい問題である。
最近の研究は、単純なフィードフォワードネットワークの置換対称性に同値な有望な重み空間モデルを開発した。
本研究は,任意の重み空間に対する置換同変モデルを自動的に構築するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-07T20:12:27Z) - Learning to Simulate: Generative Metamodeling via Quantile Regression [2.2518304637809714]
我々は「シミュレーターの高速シミュレータ」を構築することを目的とした、生成メタモデリングと呼ばれる新しいメタモデリング概念を提案する。
一度構築すると、生成メタモデルは入力が特定されるとすぐに大量のランダム出力を生成することができる。
本稿では,QRGMM(quantile-regression-based generative metamodeling)という新しいアルゴリズムを提案し,その収束率と収束率について検討する。
論文 参考訳(メタデータ) (2023-11-29T16:46:24Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Physics-Informed Model-Based Reinforcement Learning [19.01626581411011]
従来の強化学習アルゴリズムの欠点の1つは、サンプル効率の低さである。
我々は、その遷移力学と報酬関数のモデルを学び、それを使って想像軌道を生成し、それらをバックプロパゲーションしてポリシーを更新する。
モデルベースRLでは,初期条件に敏感な環境において,モデル精度が重要となることを示す。
また、挑戦的な環境では、物理インフォームドモデルベースRLは最先端のモデルフリーRLアルゴリズムよりも平均回帰性が高いことを示す。
論文 参考訳(メタデータ) (2022-12-05T11:26:10Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Tensor Networks for Probabilistic Sequence Modeling [7.846449972735859]
シーケンスデータの確率的モデリングには,一様行列積状態(u-MPS)モデルを用いる。
次に、訓練されたu-MPSに対して、様々な条件分布から効率的にサンプリングできる新しい生成アルゴリズムを提案する。
合成テキストデータと実テキストデータを用いたシーケンスモデリング実験は、U-MPSが様々なベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T17:16:05Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。