Fugu-MT 論文翻訳(概要): The Computational Complexity of ReLU Network Training Parameterized by Data Dimensionality

論文の概要: The Computational Complexity of ReLU Network Training Parameterized by Data Dimensionality

arxiv url: http://arxiv.org/abs/2105.08675v1
Date: Tue, 18 May 2021 17:05:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-19 14:04:26.440552
Title: The Computational Complexity of ReLU Network Training Parameterized by Data Dimensionality
Title（参考訳）: データ次元にパラメータ化されたreluネットワークトレーニングの計算複雑性
Authors: Vincent Froese, Christoph Hertrich, Rolf Niedermeier
Abstract要約: トレーニングデータの寸法$d$が計算の複雑さに与える影響を分析します。既知のブルートフォース戦略が本質的に最適であることを示す。特に、一定の$d$ と凸損失関数に対する既知の時間アルゴリズムを、より一般的な損失関数のクラスに拡張する。
参考スコア（独自算出の注目度）: 8.940054309023525
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding the computational complexity of training simple neural networks with rectified linear units (ReLUs) has recently been a subject of intensive research. Closing gaps and complementing results from the literature, we present several results on the parameterized complexity of training two-layer ReLU networks with respect to various loss functions. After a brief discussion of other parameters, we focus on analyzing the influence of the dimension $d$ of the training data on the computational complexity. We provide running time lower bounds in terms of W[1]-hardness for parameter $d$ and prove that known brute-force strategies are essentially optimal (assuming the Exponential Time Hypothesis). In comparison with previous work, our results hold for a broad(er) range of loss functions, including $\ell^p$-loss for all $p\in[0,\infty]$. In particular, we extend a known polynomial-time algorithm for constant $d$ and convex loss functions to a more general class of loss functions, matching our running time lower bounds also in these cases.
Abstract（参考訳）: 線形整列ユニット(ReLU)を用いた単純なニューラルネットワークの学習における計算複雑性の理解が近年,集中的な研究の対象となっている。そこで本論文では,2層reluネットワークの各種損失関数に対するパラメータ化複雑性に関するいくつかの結果について述べる。他のパラメータに関する簡単な議論の後、トレーニングデータの次元$d$が計算複雑性に与える影響を分析することに重点を置いている。パラメータ $d$ に対する W[1]-hardness という観点でランニングタイムの下界を提供し、既知のブルートフォース戦略が本質的に最適であることを証明する(指数時間仮説を仮定する)。これまでの研究と比較すると、結果は幅広い損失関数に対して、すべての$p\in[0,\infty]$に対して$\ell^p$-lossを含む。特に、定数$d$と凸損失関数の既知の多項式時間アルゴリズムを、より一般的な損失関数のクラスに拡張し、これらの場合もランニングタイムの下限と一致する。

関連論文リスト

Element-wise Attention Is All You Need [0.0]
自己注意機構は、様々な領域で優れたパフォーマンスを持つが、トレーニングと推論の両方で複雑さに悩まされる。ドット積演算の代わりにユークリッド距離を用いて類似性を計算する新しい要素ワイドアテンション機構を提案する。推論中はリカレントニューラルネットワークとして再計算でき、$mathcalO(tD)$を推論することができる。
論文参考訳（メタデータ） (2025-01-10T05:54:04Z)
Learning Multi-Index Models with Neural Networks via Mean-Field Langevin Dynamics [21.55547541297847]
平均場ランゲヴィンアルゴリズムを用いて学習した2層ニューラルネットワークを用いて,高次元のマルチインデックスモデルを学習する問題について検討する。軽度の分布仮定の下では、サンプルと計算の複雑さの両方を制御する実効次元 $d_mathrmeff$ を特徴づける。
論文参考訳（メタデータ） (2024-08-14T02:13:35Z)
Online Learning and Information Exponents: On The Importance of Batch size, and Time/Complexity Tradeoffs [24.305423716384272]
我々は,1パス勾配勾配(SGD)を有する2層ニューラルネットワークの繰り返し時間に対するバッチサイズの影響について検討した。大規模なバッチで勾配更新を行うことで、サンプル全体の複雑さを変えることなく、トレーニング時間を最小化できることが示される。低次元常微分方程式(ODE)のシステムにより、トレーニングの進捗を追跡できることを示す。
論文参考訳（メタデータ） (2024-06-04T09:44:49Z)
Limited Memory Online Gradient Descent for Kernelized Pairwise Learning with Dynamic Averaging [18.843097436906618]
実例の独立性を必要としない軽量なOGDアルゴリズムを導入し、カーネル対学習に一般化する。提案アルゴリズムは,ランダムな例と過去のデータを表す移動平均に基づいて勾配を構築し,その結果,O(T)$の複雑さに縛られたサブ線形後悔が生じる。実世界のデータセットによるいくつかの実験では、複雑性技術がオフラインおよびオンラインシナリオでカーネルと線形勾配を上回ることが示されている。
論文参考訳（メタデータ） (2024-02-02T05:21:50Z)
Polynomial-Time Solutions for ReLU Network Training: A Complexity Classification via Max-Cut and Zonotopes [70.52097560486683]
我々は、ReLUネットワークの近似の難しさがマックス・カッツ問題の複雑さを反映しているだけでなく、特定の場合において、それと完全に一致することを証明した。特に、$epsilonleqsqrt84/83-1approx 0.006$とすると、目的値に関して相対誤差$epsilon$でReLUネットワーク対象の近似グローバルデータセットを見つけることはNPハードであることが示される。
論文参考訳（メタデータ） (2023-11-18T04:41:07Z)
Efficiently Learning One-Hidden-Layer ReLU Networks via Schur Polynomials [50.90125395570797]
正方形損失に関して、標準的なガウス分布の下での$k$ReLU活性化の線形結合をPAC学習する問題をmathbbRd$で検討する。本研究の主な成果は,この学習課題に対して,サンプルおよび計算複雑性が$(dk/epsilon)O(k)$で,epsilon>0$が目標精度である。
論文参考訳（メタデータ） (2023-07-24T14:37:22Z)
Online Sub-Sampling for Reinforcement Learning with General Function Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文参考訳（メタデータ） (2021-06-14T07:36:25Z)
Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T19:08:53Z)
On Function Approximation in Reinforcement Learning: Optimism in the Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。私たちの後悔の限界はエピソードの数とは無関係です。
論文参考訳（メタデータ） (2020-11-09T18:32:22Z)
Gradient-Based Empirical Risk Minimization using Local Polynomial Regression [39.29885444997579]
この論文の主な目標は、勾配降下(GD)や勾配降下(SGD)といった異なるアルゴリズムを比較することである。損失関数がデータのスムーズな場合、各反復でオラクルを学習し、GDとSGDの両方のオラクル複雑度に打ち勝つことができることを示す。
論文参考訳（メタデータ） (2020-11-04T20:10:31Z)
Convergence of Meta-Learning with Task-Specific Adaptation over Partial Parameters [152.03852111442114]
モデルに依存しないメタラーニング(MAML)は非常に成功したアルゴリズムメタラーニングの実践であるが、高い計算複雑性を持つ。本稿では,その複雑さがANILの全体的な収束性能に大きく影響することを示す。
論文参考訳（メタデータ） (2020-06-16T19:57:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。