論文の概要: Data splitting improves statistical performance in overparametrized
regimes
- arxiv url: http://arxiv.org/abs/2110.10956v1
- Date: Thu, 21 Oct 2021 08:10:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 07:22:52.240243
- Title: Data splitting improves statistical performance in overparametrized
regimes
- Title(参考訳): データ分割は過度にパラメータ化された政権の統計性能を改善する
- Authors: Nicole M\"ucke, Enrico Reiss, Jonas Rungenhagen, and Markus Klein
- Abstract要約: 分散学習は、複数のコンピューティングデバイスを活用することで、全体的なトレーニング時間を短縮する一般的な戦略である。
この状態において、データの分割は正規化効果があり、統計性能と計算複雑性が向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large training datasets generally offer improvement in model
performance, the training process becomes computationally expensive and time
consuming. Distributed learning is a common strategy to reduce the overall
training time by exploiting multiple computing devices. Recently, it has been
observed in the single machine setting that overparametrization is essential
for benign overfitting in ridgeless regression in Hilbert spaces. We show that
in this regime, data splitting has a regularizing effect, hence improving
statistical performance and computational complexity at the same time. We
further provide a unified framework that allows to analyze both the finite and
infinite dimensional setting. We numerically demonstrate the effect of
different model parameters.
- Abstract(参考訳): 大きなトレーニングデータセットは一般的にモデルパフォーマンスの改善を提供するが、トレーニングプロセスは計算的に高価になり、時間がかかる。
分散学習は、複数のコンピューティングデバイスを活用することで、全体的なトレーニング時間を短縮する一般的な戦略である。
近年, ヒルベルト空間におけるリッジレス回帰の良性オーバーフィッティングには過パラメータ化が不可欠であることがわかった。
この状態において、データの分割は正規化効果を持ち、統計性能と計算複雑性を同時に改善することを示す。
さらに、有限次元と無限次元の両方を解析できる統一的なフレームワークを提供する。
異なるモデルパラメータの効果を数値的に示す。
関連論文リスト
- Online Variational Sequential Monte Carlo [49.97673761305336]
我々は,計算効率が高く正確なモデルパラメータ推定とベイジアン潜在状態推定を提供する変分連続モンテカルロ法(VSMC)を構築した。
オンラインVSMCは、パラメータ推定と粒子提案適応の両方を効率よく、完全にオンザフライで実行することができる。
論文 参考訳(メタデータ) (2023-12-19T21:45:38Z) - Towards Continually Learning Application Performance Models [1.2278517240988065]
機械学習ベースのパフォーマンスモデルは、重要なジョブスケジューリングとアプリケーションの最適化決定を構築するために、ますます使われています。
伝統的に、これらのモデルは、より多くのサンプルが時間とともに収集されるため、データ分布が変化しないと仮定する。
本研究では,分布のドリフトを考慮した継続的な学習性能モデルを構築し,破滅的な忘れを軽減し,一般化性を向上させる。
論文 参考訳(メタデータ) (2023-10-25T20:48:46Z) - Adaptive Model Pruning and Personalization for Federated Learning over
Wireless Networks [72.59891661768177]
フェデレーション学習(FL)は、データプライバシを保護しながら、エッジデバイス間での分散学習を可能にする。
これらの課題を克服するために、部分的なモデルプルーニングとパーソナライズを備えたFLフレームワークを検討する。
このフレームワークは、学習モデルを、データ表現を学ぶためにすべてのデバイスと共有されるモデルプルーニングと、特定のデバイスのために微調整されるパーソナライズされた部分とで、グローバルな部分に分割する。
論文 参考訳(メタデータ) (2023-09-04T21:10:45Z) - Efficient Augmentation for Imbalanced Deep Learning [8.38844520504124]
本研究では、畳み込みニューラルネットワークの内部表現である不均衡画像データについて検討する。
モデルの特徴埋め込みとテストセットの一般化ギャップを測定し、マイノリティクラスではそのギャップが広いことを示す。
この洞察により、不均衡なデータのための効率的な3相CNNトレーニングフレームワークを設計できる。
論文 参考訳(メタデータ) (2022-07-13T09:43:17Z) - An Accurate and Efficient Large-scale Regression Method through Best
Friend Clustering [10.273838113763192]
データサンプルの中で最も重要な情報を捉えた、新規でシンプルなデータ構造を提案します。
クラスタリングと回帰テクニックを並列ライブラリとして組み合わせ、データのハイブリッド構造とモデルの並列性を利用して予測を行います。
論文 参考訳(メタデータ) (2021-04-22T01:34:29Z) - Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。
新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。
シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文 参考訳(メタデータ) (2020-10-20T16:17:47Z) - Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。
入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。
実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文 参考訳(メタデータ) (2020-06-16T18:43:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。