Fugu-MT 論文翻訳(概要): A Novel, Scale-Invariant, Differentiable, Efficient, Scalable Regularizer

論文の概要: A Novel, Scale-Invariant, Differentiable, Efficient, Scalable Regularizer

arxiv url: http://arxiv.org/abs/2301.07285v1
Date: Wed, 18 Jan 2023 03:17:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-19 16:53:38.242489
Title: A Novel, Scale-Invariant, Differentiable, Efficient, Scalable Regularizer
Title（参考訳）: 新しいスケール不変, 微分可能, 効率的, スケーラブルな正則化器
Authors: Hovig Tigran Bayandorian
Abstract要約: 本稿では,$L_p$-normに基づいていない新しい正規化器について述べる。微分可能で、単純で高速で計算し、スケール不変であり、簡単な量の追加メモリを必要とし、容易に並列化できる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: $L_{p}$-norm regularization schemes such as $L_{0}$, $L_{1}$, and $L_{2}$-norm regularization and $L_{p}$-norm-based regularization techniques such as weight decay and group LASSO compute a quantity which de pends on model weights considered in isolation from one another. This paper describes a novel regularizer which is not based on an $L_{p}$-norm. In contrast with $L_{p}$-norm-based regularization, this regularizer is concerned with the spatial arrangement of weights within a weight matrix. This regularizer is an additive term for the loss function and is differentiable, simple and fast to compute, scale-invariant, requires a trivial amount of additional memory, and can easily be parallelized. Empirically this method yields approximately a one order-of-magnitude improvement in the number of nonzero model parameters at a given level of accuracy.
Abstract（参考訳）: l_{0}$, $l_{1}$, $l_{2}$-norm正規化のような$l_{p}$-norm正則化スキームと、重量減衰やグループラッソのような$l_{p}$-norm正則化テクニックは、分離されたモデル重みに反則する量を計算する。本稿では,$L_{p}$-normに基づいていない新しい正規化器について述べる。 L_{p}$-norm-based regularizationとは対照的に、この正規化器は重み行列内の重みの空間配置に関係している。この正規化子は損失関数の加法語であり、微分可能で単純で高速で計算しやすく、スケール不変であり、簡単な量の追加メモリを必要とし、容易に並列化できる。経験的に、この方法は与えられた精度のレベルでゼロでないモデルパラメータの数を約1桁改善する。

関連論文リスト

Singular Bayesian Neural Networks [1.2891210250935148]
ベイズニューラルネットワークはキャリブレーションされた不確かさを約束するが、標準平均体ガウス後方に対する$O(mn)$パラメータを必要とする。我々は、ルベーグ測度に関して特異な後部を誘導し、ランク-$r$多様体に集中する。複素項が $sqrtr(m+n)$ ではなく $sqrtm n$ としてスケールするPAC-Bayes 一般化境界を導出し、誤差を最適化とランク誘導バイアスに分解する損失境界を証明する。
論文参考訳（メタデータ） (2026-01-30T23:06:34Z)
Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文参考訳（メタデータ） (2025-10-17T02:58:35Z)
Scalable Approximate Algorithms for Optimal Transport Linear Models [0.769672852567215]
エントロピー規則化OTデータフィット項を用いた非線形回帰モデルの一般クラスを解くための新しい枠組みを提案する。一般的なペナルティとデータ適合の条件に対する単純な乗法的更新を導出する。本手法は,実装の単純さと並列化の容易さから,大規模問題に適した手法である。
論文参考訳（メタデータ） (2025-04-06T20:37:25Z)
Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
正規球上の線形最小化オラクル(LMO)を利用する最適化手法について検討する。この問題の幾何学に適応するためにLMOを用いた新しいアルゴリズム群を提案し, 意外なことに, 制約のない問題に適用可能であることを示す。
論文参考訳（メタデータ） (2025-02-11T13:10:34Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
Iterative Reweighted Framework Based Algorithms for Sparse Linear Regression with Generalized Elastic Net Penalty [0.3124884279860061]
弾性ネットペナルティはパラメータ回帰と変数選択のための高次元統計学においてしばしば用いられる。経験的証拠は、$ell_q$-norm のペナルティが $ell_r$-norm のペナルティよりもよく退行することを示している。局所的なLipschitz連続$epsilon$-approximation to $ell_q$-norm に基づく2つの効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-11-22T11:55:37Z)
Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文参考訳（メタデータ） (2024-05-01T15:59:00Z)
Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文参考訳（メタデータ） (2024-04-29T15:04:07Z)
Decoupled Weight Decay for Any $p$ Norm [1.1510009152620668]
トレーニング中の正規化に$L_p$のブリッジをベースとした,スパーシフィケーションに対する単純かつ効果的なアプローチを検討する。我々は、標準の$L$重み崩壊を任意の$p$ノルムに一般化する新しい重み崩壊スキームを導入する。標準的な$L$正規化に匹敵する性能を維持しながら、非常に疎結合なネットワークにつながることを実証的に実証した。
論文参考訳（メタデータ） (2024-04-16T18:02:15Z)
Conditional Matrix Flows for Gaussian Graphical Models [1.6435014180036467]
本稿では,頻繁な鍵化とベイズ推論の利点を考察した変分推論行列GG-Flowの一般フレームワークを提案する。 a train of the sparse for any $lambda$ and any $l_q$ (pse-) and for any $l_q$ (pse-) we have train the limit for any $lambda$ and any $l_q$ (pse-) and (like for the selection) the often solution。
論文参考訳（メタデータ） (2023-06-12T17:25:12Z)
KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal [70.15267479220691]
モデル強化学習のサンプル複雑性を,生成的分散自由モデルを用いて検討・解析する。我々の分析は、$varepsilon$が十分小さい場合、$varepsilon$-optimal Policyを見つけるのが、ほぼ最小の最適化であることを示している。
論文参考訳（メタデータ） (2022-05-27T19:39:24Z)
Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。彼らは不利な姿勢と収束の不安定さに悩まされる。本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文参考訳（メタデータ） (2021-06-06T18:05:02Z)
An efficient projection neural network for $\ell_1$-regularized logistic regression [10.517079029721257]
本稿では, $ell_$-regularized logistics regression のための単純な投影ニューラルネットワークを提案する。提案したニューラルネットワークは、余分な補助変数や滑らかな近似を必要としない。また、リアプノフ理論を用いて、提案したニューラルネットワークの収束について検討し、任意の初期値を持つ問題の解に収束することを示す。
論文参考訳（メタデータ） (2021-05-12T06:13:44Z)
Fast Minimum-norm Adversarial Attacks through Adaptive Norm Constraints [29.227720674726413]
異なる$ell_p$-norm摂動モデルで動作する高速最小ノルム(FMN)攻撃を提案する。実験の結果、FMNは収束速度と時間において既存の攻撃よりも著しく優れていた。
論文参考訳（メタデータ） (2021-02-25T12:56:26Z)
Sparse Identification of Nonlinear Dynamical Systems via Reweighted $\ell_1$-regularized Least Squares [62.997667081978825]
本研究は, 非線形系の制御方程式をノイズ状態測定から復元するための繰り返しスパース規則化回帰法を提案する。本研究の目的は、状態測定ノイズの存在下での手法の精度とロバスト性を改善することである。
論文参考訳（メタデータ） (2020-05-27T08:30:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。