論文の概要: Optimizing Perturbations for Improved Training of Machine Learning Models
- arxiv url: http://arxiv.org/abs/2502.04121v1
- Date: Thu, 06 Feb 2025 14:53:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:31:18.462276
- Title: Optimizing Perturbations for Improved Training of Machine Learning Models
- Title(参考訳): 機械学習モデルの学習改善のための摂動の最適化
- Authors: Sagi Meir, Tommer D. Keidar, Shlomi Reuveni, Barak Hirshberg,
- Abstract要約: 摂動学習プロセスが準定常状態に達した場合、単一摂動周波数での応答は広い周波数でその振舞いを予測することができることを示す。
本研究により,統計的手法を用いて機械学習モデルの学習プロトコルを最適化することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Machine learning models have become indispensable tools in applications across the physical sciences. Their training is often time-consuming, vastly exceeding the inference timescales. Several protocols have been developed to perturb the learning process and improve the training, such as shrink and perturb, warm restarts, and stochastic resetting. For classifiers, these perturbations have been shown to result in enhanced speedups or improved generalization. However, the design of such perturbations is usually done \textit{ad hoc} by intuition and trial and error. To rationally optimize training protocols, we frame them as first-passage processes and consider their response to perturbations. We show that if the unperturbed learning process reaches a quasi-steady state, the response at a single perturbation frequency can predict the behavior at a wide range of frequencies. We demonstrate that this is the case when training a CIFAR-10 classifier using the ResNet-18 model and use this approach to identify an optimal perturbation and frequency. Our work allows optimization of training protocols of machine learning models using a statistical mechanical approach.
- Abstract(参考訳): 機械学習モデルは、物理科学全体にわたる応用において欠かせないツールとなっている。
彼らの訓練は、しばしば時間がかかり、推論の時間スケールをはるかに超えている。
学習プロセスの摂動と、縮小や摂動、ウォームリスタート、確率的リセットといったトレーニングを改善するために、いくつかのプロトコルが開発されている。
分類器の場合、これらの摂動はスピードアップや一般化の改善をもたらすことが示されている。
しかし、そのような摂動の設計は通常、直観と試行錯誤によって「textit{ad hoc}」と呼ばれる。
トレーニングプロトコルを合理的に最適化するために、私たちはそれらをファーストパスプロセスとしてフレーム化し、摂動に対する応答を検討する。
摂動学習プロセスが準定常状態に達すると、単一摂動周波数での応答は広い周波数でその振舞いを予測することができることを示す。
本稿では、ResNet-18モデルを用いてCIFAR-10分類器を訓練し、この手法を用いて最適な摂動と周波数を同定する。
本研究により,統計的手法を用いて機械学習モデルの学習プロトコルを最適化することができる。
関連論文リスト
- Enabling Realtime Reinforcement Learning at Scale with Staggered Asynchronous Inference [22.106900089984318]
エージェントがアクション推論と学習を行う場合であっても、リアルタイム環境は変化する。
機械学習の最近の進歩は、推論時間が長いより大きなニューラルネットワークを含んでいる。
実時間強化学習における後悔に対する低い限界について分析する。
論文 参考訳(メタデータ) (2024-12-18T21:43:40Z) - A Cost-Aware Approach to Adversarial Robustness in Neural Networks [1.622320874892682]
本稿では,ハードウェア選択,バッチサイズ,エポック数,テストセット精度の影響を測定するために,高速化された故障時間モデルを提案する。
我々は、複数のGPUタイプを評価し、モデルの堅牢性を最大化し、モデル実行時間を同時に最小化するためにTree Parzen Estimatorを使用します。
論文 参考訳(メタデータ) (2024-09-11T20:43:59Z) - Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - Accelerating Multiframe Blind Deconvolution via Deep Learning [0.0]
地上からの太陽画像の復元は計算に費用がかかる手続きである。
本稿では,アルゴリズムのアンロールに基づく復元を高速化する手法を提案する。
両手法が標準最適化法と比較して復元時間を大幅に短縮することを示した。
論文 参考訳(メタデータ) (2023-06-21T07:53:00Z) - Dynamic Scheduled Sampling with Imitation Loss for Neural Text
Generation [10.306522595622651]
トレーニング時間精度のみに基づいてスケジュールを維持するDySI(Dynamic Scheduled Sampling with Imitation Loss)を導入する。
DySIは標準的な機械翻訳ベンチマークの顕著な改善を実現し、他のテキスト生成モデルの堅牢性を大幅に改善した。
論文 参考訳(メタデータ) (2023-01-31T16:41:06Z) - Stabilizing Machine Learning Prediction of Dynamics: Noise and
Noise-inspired Regularization [58.720142291102135]
近年、機械学習(ML)モデルはカオス力学系の力学を正確に予測するために訓練可能であることが示されている。
緩和技術がなければ、この技術は人工的に迅速にエラーを発生させ、不正確な予測と/または気候不安定をもたらす可能性がある。
トレーニング中にモデル入力に付加される多数の独立雑音実効化の効果を決定論的に近似する正規化手法であるLinearized Multi-Noise Training (LMNT)を導入する。
論文 参考訳(メタデータ) (2022-11-09T23:40:52Z) - Continual learning autoencoder training for a particle-in-cell
simulation via streaming [52.77024349608834]
今後のエクサスケール時代は 次世代の物理シミュレーションを 高解像度で提供します
これらのシミュレーションは高解像度であり、ディスク上に大量のシミュレーションデータを格納することはほぼ不可能であるため、機械学習モデルのトレーニングに影響を与える。
この研究は、ディスク上のデータなしで、実行中のシミュレーションにニューラルネットワークを同時にトレーニングするアプローチを示す。
論文 参考訳(メタデータ) (2022-11-09T09:55:14Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Efficient Sub-structured Knowledge Distillation [52.5931565465661]
定式化においてよりシンプルで,既存のアプローチよりもはるかに効率的にトレーニングできるアプローチを提案する。
教師モデルから学生モデルへの知識の伝達は、出力空間全体ではなく、すべてのサブ構造上の予測を局所的に一致させることで行う。
論文 参考訳(メタデータ) (2022-03-09T15:56:49Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。
また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文 参考訳(メタデータ) (2020-02-26T15:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。