Fugu-MT 論文翻訳(概要): First-Passage Approach to Optimizing Perturbations for Improved Training of Machine Learning Models

論文の概要: First-Passage Approach to Optimizing Perturbations for Improved Training of Machine Learning Models

arxiv url: http://arxiv.org/abs/2502.04121v2
Date: Thu, 13 Mar 2025 18:41:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 15:33:20.435751
Title: First-Passage Approach to Optimizing Perturbations for Improved Training of Machine Learning Models
Title（参考訳）: 機械学習モデルの学習改善のための摂動の最適化のための初歩的アプローチ
Authors: Sagi Meir, Tommer D. Keidar, Shlomi Reuveni, Barak Hirshberg,
Abstract要約: 機械学習モデルのトレーニングを改善するために、いくつかのプロトコルが開発されている。それらをファーストパスプロセスとしてフレーム化して、摂動に対する応答を検討します。摂動学習プロセスが準定常状態に達すると、単一摂動周波数での応答が幅広い時間スケールで予測可能であることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Machine learning models have become indispensable tools in applications across the physical sciences. Their training is often time-consuming, vastly exceeding the inference timescales. Several protocols have been developed to perturb the learning process and improve the training, such as shrink and perturb, warm restarts, and stochastic resetting. For classifiers, these perturbations have been shown to result in enhanced speedups or improved generalization. However, the design of such perturbations is usually done ad hoc by intuition and trial and error. To rationally optimize training protocols, we frame them as first-passage processes and consider their response to perturbations. We show that if the unperturbed learning process reaches a quasi-steady state, the response at a single perturbation frequency can predict the behavior at a wide range of frequencies. We employ this approach to a CIFAR-10 classifier using the ResNet-18 model and identify a useful perturbation and frequency among several possibilities. Our work allows optimization of perturbations for improving the training of machine learning models using a first-passage approach.
Abstract（参考訳）: 機械学習モデルは、物理科学全体にわたる応用において欠かせないツールとなっている。彼らの訓練は、しばしば時間がかかり、推論の時間スケールをはるかに超えている。学習プロセスの摂動と、縮小や摂動、ウォームリスタート、確率的リセットといったトレーニングを改善するために、いくつかのプロトコルが開発されている。分類器の場合、これらの摂動はスピードアップや一般化の改善をもたらすことが示されている。しかしながら、そのような摂動の設計は直感、試行錯誤によって通常アドホックに行われる。トレーニングプロトコルを合理的に最適化するために、私たちはそれらをファーストパスプロセスとしてフレーム化し、摂動に対する応答を検討する。摂動学習プロセスが準定常状態に達すると、単一摂動周波数での応答は広い周波数でその振舞いを予測することができることを示す。本稿では、ResNet-18モデルを用いたCIFAR-10分類器にこの手法を適用し、いくつかの可能性において有用な摂動と周波数を同定する。我々の研究は、ファーストパスアプローチを用いて機械学習モデルのトレーニングを改善するために摂動の最適化を可能にする。

関連論文リスト

Instance-dependent Early Stopping [57.912273923450726]
本稿では,早期停止機構をトレーニングセット全体からインスタンスレベルに適応させる,インスタンス依存早期停止(IES)手法を提案する。 IES は、損失値の2階差が 0 付近の小さな範囲に留まっている場合、インスタンスをマスタードとみなす。 IESは、モデルのテスト精度と転送学習性能を維持したり、わずかに改善したりしながら、バックプロパゲーションインスタンスを10%から50%削減することができる。
論文参考訳（メタデータ） (2025-02-11T13:34:09Z)
Enabling Realtime Reinforcement Learning at Scale with Staggered Asynchronous Inference [22.106900089984318]
エージェントがアクション推論と学習を行う場合であっても、リアルタイム環境は変化する。機械学習の最近の進歩は、推論時間が長いより大きなニューラルネットワークを含んでいる。実時間強化学習における後悔に対する低い限界について分析する。
論文参考訳（メタデータ） (2024-12-18T21:43:40Z)
A Cost-Aware Approach to Adversarial Robustness in Neural Networks [1.622320874892682]
本稿では,ハードウェア選択,バッチサイズ,エポック数,テストセット精度の影響を測定するために,高速化された故障時間モデルを提案する。我々は、複数のGPUタイプを評価し、モデルの堅牢性を最大化し、モデル実行時間を同時に最小化するためにTree Parzen Estimatorを使用します。
論文参考訳（メタデータ） (2024-09-11T20:43:59Z)
Always-Sparse Training by Growing Connections with Guided Stochastic Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文参考訳（メタデータ） (2024-01-12T21:32:04Z)
Reset It and Forget It: Relearning Last-Layer Weights Improves Continual and Transfer Learning [2.270857464465579]
この研究は、継続学習と転帰学習をより良く示す表現につながる単純な事前学習メカニズムを特定する。最後の層における重みの繰り返しのリセットは、私たちが「ザッピング」と呼ぶもので、元々はメタコンチネンタル・ラーニング(メタコンチネンタル・ラーニング)の手順のために設計されていた。メタラーニングと継続学習の両以上の多くの環境で驚くほど適用可能であることを示す。
論文参考訳（メタデータ） (2023-10-12T02:52:14Z)
Accelerating Multiframe Blind Deconvolution via Deep Learning [0.0]
地上からの太陽画像の復元は計算に費用がかかる手続きである。本稿では,アルゴリズムのアンロールに基づく復元を高速化する手法を提案する。両手法が標準最適化法と比較して復元時間を大幅に短縮することを示した。
論文参考訳（メタデータ） (2023-06-21T07:53:00Z)
Dynamic Scheduled Sampling with Imitation Loss for Neural Text Generation [10.306522595622651]
トレーニング時間精度のみに基づいてスケジュールを維持するDySI(Dynamic Scheduled Sampling with Imitation Loss)を導入する。 DySIは標準的な機械翻訳ベンチマークの顕著な改善を実現し、他のテキスト生成モデルの堅牢性を大幅に改善した。
論文参考訳（メタデータ） (2023-01-31T16:41:06Z)
Stabilizing Machine Learning Prediction of Dynamics: Noise and Noise-inspired Regularization [58.720142291102135]
近年、機械学習(ML)モデルはカオス力学系の力学を正確に予測するために訓練可能であることが示されている。緩和技術がなければ、この技術は人工的に迅速にエラーを発生させ、不正確な予測と/または気候不安定をもたらす可能性がある。トレーニング中にモデル入力に付加される多数の独立雑音実効化の効果を決定論的に近似する正規化手法であるLinearized Multi-Noise Training (LMNT)を導入する。
論文参考訳（メタデータ） (2022-11-09T23:40:52Z)
Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文参考訳（メタデータ） (2022-09-07T15:15:12Z)
Effective and Efficient Training for Sequential Recommendation using Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文参考訳（メタデータ） (2022-07-06T13:06:31Z)
Efficient Sub-structured Knowledge Distillation [52.5931565465661]
定式化においてよりシンプルで,既存のアプローチよりもはるかに効率的にトレーニングできるアプローチを提案する。教師モデルから学生モデルへの知識の伝達は、出力空間全体ではなく、すべてのサブ構造上の予測を局所的に一致させることで行う。
論文参考訳（メタデータ） (2022-03-09T15:56:49Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文参考訳（メタデータ） (2020-04-27T08:59:57Z)
Overfitting in adversarially robust deep learning [86.11788847990783]
トレーニングセットへの過度な適合は、実際には、逆向きの堅牢なトレーニングにおいて、非常に大きなロバストなパフォーマンスを損なうことを示す。また, 2重降下曲線のような効果は, 逆向きに訓練されたモデルでもまだ起こるが, 観測された過度なオーバーフィッティングを説明できないことを示す。
論文参考訳（メタデータ） (2020-02-26T15:40:50Z)
The Two Regimes of Deep Network Training [93.84309968956941]
本研究では,異なる学習スケジュールの効果と,それらを選択する適切な方法について検討する。この目的のために、我々は2つの異なる段階を分離し、これを「大きな段階的体制」と「小さな段階的体制」と呼ぶ。トレーニングアルゴリズムは学習率のスケジュールを大幅に単純化することができる。
論文参考訳（メタデータ） (2020-02-24T17:08:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。