論文の概要: Data Compression using Rank-1 Lattices for Parameter Estimation in Machine Learning
- arxiv url: http://arxiv.org/abs/2409.13453v1
- Date: Fri, 20 Sep 2024 12:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 07:04:14.289672
- Title: Data Compression using Rank-1 Lattices for Parameter Estimation in Machine Learning
- Title(参考訳): 機械学習におけるパラメータ推定のためのランク1格子を用いたデータ圧縮
- Authors: Michael Gnewuch, Kumar Harsha, Marcin Wnuk,
- Abstract要約: 平均二乗誤差と正規化バージョンは、教師付き機械学習における標準的な損失関数である。
広範データセットをランク1格子を用いてより小さなサイズに縮小するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The mean squared error and regularized versions of it are standard loss functions in supervised machine learning. However, calculating these losses for large data sets can be computationally demanding. Modifying an approach of J. Dick and M. Feischl [Journal of Complexity 67 (2021)], we present algorithms to reduce extensive data sets to a smaller size using rank-1 lattices. Rank-1 lattices are quasi-Monte Carlo (QMC) point sets that are, if carefully chosen, well-distributed in a multidimensional unit cube. The compression strategy in the preprocessing step assigns every lattice point a pair of weights depending on the original data and responses, representing its relative importance. As a result, the compressed data makes iterative loss calculations in optimization steps much faster. We analyze the errors of our QMC data compression algorithms and the cost of the preprocessing step for functions whose Fourier coefficients decay sufficiently fast so that they lie in certain Wiener algebras or Korobov spaces. In particular, we prove that our approach can lead to arbitrary high convergence rates as long as the functions are sufficiently smooth.
- Abstract(参考訳): 平均二乗誤差と正規化バージョンは、教師付き機械学習における標準損失関数である。
しかし、これらの大きなデータセットに対する損失を計算することは、計算的に要求される。
J. Dick と M. Feischl [Journal of Complexity 67 (2021)] のアプローチを改良し、ランク1格子を用いて広範なデータセットを小さくするアルゴリズムを提案する。
ランク1格子は準モンテカルロ(QMC)点集合であり、慎重に選択されたとしても多次元単位立方体においてよく分布する。
前処理ステップの圧縮戦略は、すべての格子点に対して、元のデータと応答に依存する一対の重みを割り当て、その相対的な重要性を示す。
その結果、圧縮されたデータにより、最適化ステップにおける繰り返し損失計算がより高速になる。
我々は、QMCデータ圧縮アルゴリズムの誤差と、フーリエ係数が十分に高速に崩壊する関数に対する前処理ステップのコストを分析し、それらがある種のウィーナー代数やコロボフ空間に存在するようにした。
特に、関数が十分に滑らかである限り、我々のアプローチが任意の高収束率につながることを証明している。
関連論文リスト
- Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Learning-Augmented K-Means Clustering Using Dimensional Reduction [1.7243216387069678]
主成分分析(PCA)を用いたデータセットの次元性低減手法を提案する。
PCAは文献でよく確立されており、データモデリング、圧縮、可視化の最も有用なツールの1つになっている。
論文 参考訳(メタデータ) (2024-01-06T12:02:33Z) - Stochastic Optimization for Non-convex Problem with Inexact Hessian
Matrix, Gradient, and Function [99.31457740916815]
信頼領域(TR)と立方体を用いた適応正則化は、非常に魅力的な理論的性質を持つことが証明されている。
TR法とARC法はヘッセン関数,勾配関数,関数値の非コンパクトな計算を同時に行うことができることを示す。
論文 参考訳(メタデータ) (2023-10-18T10:29:58Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Prediction and compression of lattice QCD data using machine learning
algorithms on quantum annealer [4.987315310656657]
格子QCDデータに対する回帰および圧縮アルゴリズムを提案する。
回帰アルゴリズムでは、入力変数と出力変数の相関関係をスパース符号化機械学習アルゴリズムにエンコードする。
圧縮アルゴリズムでは、浮動小数点数の格子QCDデータから入力データを密に再構成する二分係数への写像を定義する。
論文 参考訳(メタデータ) (2021-12-03T19:04:35Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Hybrid Stochastic-Deterministic Minibatch Proximal Gradient:
Less-Than-Single-Pass Optimization with Nearly Optimal Generalization [83.80460802169999]
HSDMPGは、学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成可能であることを示す。
損失係数について、HSDMPGは学習モデル上で過大なエラーの順序である$mathcalObig(1/sttnbig)$を達成できることを示す。
論文 参考訳(メタデータ) (2020-09-18T02:18:44Z) - Provably Convergent Working Set Algorithm for Non-Convex Regularized
Regression [0.0]
本稿では、収束保証付き非正則正規化器のためのワーキングセットアルゴリズムを提案する。
その結果,ブロックコーディネートや勾配ソルバの完全解法と比較して高い利得を示した。
論文 参考訳(メタデータ) (2020-06-24T07:40:31Z) - Effective Dimension Adaptive Sketching Methods for Faster Regularized
Least-Squares Optimization [56.05635751529922]
スケッチに基づくL2正規化最小二乗問題の解法を提案する。
我々は、最も人気のあるランダム埋め込みの2つ、すなわちガウス埋め込みとサブサンプリングランダム化アダマール変換(SRHT)を考える。
論文 参考訳(メタデータ) (2020-06-10T15:00:09Z) - Online stochastic gradient descent on non-convex losses from
high-dimensional inference [2.2344764434954256]
勾配降下(SGD)は高次元タスクにおける最適化問題に対する一般的なアルゴリズムである。
本稿では,データから非自明な相関関係を推定する。
本稿では、位相探索や一般化モデルの推定といった一連のタスクに適用することで、我々のアプローチを説明する。
論文 参考訳(メタデータ) (2020-03-23T17:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。