論文の概要: Soft Diamond Regularizers for Deep Learning
- arxiv url: http://arxiv.org/abs/2412.20724v2
- Date: Fri, 12 Sep 2025 05:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 14:04:02.890461
- Title: Soft Diamond Regularizers for Deep Learning
- Title(参考訳): 深層学習のためのソフトダイヤモンド正則化器
- Authors: Olaoluwa Adigun, Bart Kosko,
- Abstract要約: この章は、厚い尾を持つ対称アルファ安定$SalphaS$確率ベル曲線に基づくソフトダイヤモンドシナプス正則化器の新しいファミリーを提示する。
彼らは画像および言語翻訳テストセットのディープラーニング性能を改善し、訓練された重量の空間性を高めた。
彼らはスパースラッソ回帰と分類の最先端のハードダイアモンドラプラシア正規化器より優れていた。
- 参考スコア(独自算出の注目度): 0.17188280334580194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This chapter presents the new family of soft diamond synaptic regularizers based on thick-tailed symmetric alpha stable $S{\alpha}S$ probability bell curves. These new parametrized weight priors improved deep-learning performance on image and language-translation test sets and increased the sparsity of the trained weights. They outperformed the state-of-the-art hard-diamond Laplacian regularizer of sparse lasso regression and classification. The $S{\alpha}S$ synaptic weight priors have power-law bell-curve tails that are thicker than the thin exponential tails of Gaussian bell curves that underly ridge regularizers. Their tails get thicker as the $\alpha$ parameter decreases. These thicker tails model more impulsive behavior and allow for occasional distant search in synaptic weight spaces of extremely high dimension. The geometry of their constraint sets has a diamond shape. The shape varies from a circle to a star or diamond that depends on the $\alpha$ tail thickness and dispersion of the $S{\alpha}S$ weight prior. These $S{\alpha}S$ bell curves lack a closed form in general and this makes direct training computationally intensive. We removed this computational bottleneck by using a precomputed look-up table. We tested the soft diamond regularizers with deep neural classifiers on both image test sets and German-to-English language translation. The image simulations used the three datasets CIFAR-10, CIFAR-100, and Caltech-256. The regularizers improved the accuracy and sparsity of the classifiers. We also tested with deep neural machine-translation models on the IWSLT-2016 Evaluation dataset for German-to-English text translation. They also outperformed ridge regularizers and lasso regularizers. These findings recommend the sub-Cauchy $\alpha = 0.5$ soft diamond regularizer as a competitive and sparse regularizer for large-scale machine learning.
- Abstract(参考訳): この章は、厚い尾を持つ対称アルファ安定$S{\alpha}S$確率ベル曲線に基づくソフトダイヤモンドシナプス正則化器の新しいファミリーを提示する。
これらの新しいパラメータ化重みは、画像および言語翻訳テストセットにおけるディープラーニング性能を改善し、訓練された重みの空間性を高めた。
彼らはスパースラッソ回帰と分類の最先端のハードダイアモンドラプラシア正規化器より優れていた。
S{\alpha}S$シンプティックウェイトは、低次レギュレータのガウスのベル曲線の薄い指数関数のテールよりも厚く、無法なベルカーブのテールを持つ。
$\alpha$パラメータが減少するにつれて、テールが肥大化する。
これらのより厚い尾はより衝動的な振る舞いをモデル化し、非常に高次元のシナプス重み空間において時折遠方の探索を可能にする。
それらの制約集合の幾何学はダイヤモンド形状を持つ。
形状は、円から星やダイヤモンドまで様々で、これは以前の$S{\alpha}S$の太さと分散に依存する。
これらの$S{\alpha}S$ベル曲線は一般に閉じた形式を欠き、計算的に直接訓練する。
我々は、事前計算されたルックアップテーブルを用いて、この計算ボトルネックを除去した。
画像テストセットとドイツ語と英語の双方で, 深層神経分類器を用いたソフトダイアモンド正則化器を試験した。
画像シミュレーションでは、CIFAR-10、CIFAR-100、Caltech-256の3つのデータセットを使用した。
正規化器は分類器の精度と空間性を向上した。
また、ドイツ語と英語のテキスト翻訳のための評価データセットIWSLT-2016上で、ディープ・ニューラル・マシン・トランスレーションモデルを用いて実験を行った。
また、尾根正則化剤やラッソ正則化剤よりも優れていた。
これらの結果は、大規模機械学習のための競争力とスパース正則化器として、サブコーシー$\alpha = 0.5$軟質ダイヤモンド正則化器を推奨している。
関連論文リスト
- Orthogonal Gradient Descent Improves Neural Calibration [0.0]
OnAR-10には10%のラベル付きデータがあり、$perp$Gradは精度でSGDと一致するが、キャリブレーションの指標は一貫して改善されている。
これらの利点は、入力破損(CIFAR-10C)と拡張トレーニングの下で継続され、$perp$GradモデルはSGDで訓練されたモデルよりも優雅に分解される。
論文 参考訳(メタデータ) (2025-06-04T22:12:46Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [61.79405341803085]
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
低ランク適応(LoRA)は、フェデレートラーニング(FL)における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Self-Ensembling Gaussian Splatting for Few-Shot Novel View Synthesis [55.561961365113554]
3D Gaussian Splatting (3DGS) は新規ビュー合成(NVS)に顕著な効果を示した
しかし、3DGSモデルはスパースポーズビューで訓練すると過度に適合する傾向にあり、その一般化能力は新規ビューに制限される。
オーバーフィッティング問題を緩和するために,Self-Ensembling Gaussian Splatting (SE-GS) アプローチを提案する。
提案手法は,NVSの品質向上に寄与し,既存の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2024-10-31T18:43:48Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Noise Stability Optimization for Finding Flat Minima: A Hessian-based Regularization Approach [18.009376840944284]
本稿では,ヘッセン損失行列を効果的に正規化できるアルゴリズムを提案する。
提案手法は,CLIPとチェーン・オブ・ファインチューニングデータセットの事前学習における一般化の改善に有効である。
論文 参考訳(メタデータ) (2023-06-14T14:58:36Z) - Improved techniques for deterministic l2 robustness [63.34032156196848]
畳み込みニューラルネットワーク(CNN)を$l_2$ノルムの下で厳密な1-Lipschitz制約で訓練することは、対向的堅牢性、解釈可能な勾配、安定した訓練に有用である。
我々は,最後の線形層を1重層に置き換えることで,1-Lipschitz CNNのロバスト性を証明する手法を提案する。
我々は,CIFAR-10およびCIFAR-100における標準および証明可能な堅牢な精度の最先端化を図る。
論文 参考訳(メタデータ) (2022-11-15T19:10:12Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - A Stochastic Proximal Method for Nonsmooth Regularized Finite Sum
Optimization [7.014966911550542]
スパースサブ構造を検索するために,非滑らかな正規化を伴うディープニューラルネットワークをトレーニングする問題を考察する。
我々は、収束と最悪のケースの複雑さが勾配のリプシッツ定数の知識や近似なしで確立されるSR2と呼ばれる新しい解法を導出する。
CIFAR-10とCIFAR-100で訓練されたネットワークインスタンスの実験により、SR2はProxGENやProxSGDのような関連する手法よりも常に高い空間性と精度を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T00:28:44Z) - Towards Alternative Techniques for Improving Adversarial Robustness:
Analysis of Adversarial Training at a Spectrum of Perturbations [5.18694590238069]
逆行訓練(AT)とその変種は、逆行性摂動に対するニューラルネットワークの堅牢性を改善する進歩を先導している。
私たちは、$epsilon$の値のスペクトルに基づいてトレーニングされたモデルに焦点を当てています。
ATの代替改善は、そうでなければ1ドル(約1万2000円)も出なかったでしょう。
論文 参考訳(メタデータ) (2022-06-13T22:01:21Z) - Uncovering the Limits of Adversarial Training against Norm-Bounded
Adversarial Examples [47.27255244183513]
本研究では, 異なるトレーニング損失, モデルサイズ, アクティベーション機能, ラベルなしデータの付加(擬似ラベル付け)などの要因が, 相手の強靭性に及ぼす影響について検討した。
我々は、より大きなモデル、Swish/SiLUアクティベーションとモデルウェイト平均化を組み合わせることで、最先端の成果をはるかに超えるロバストモデルをトレーニングできることを発見した。
論文 参考訳(メタデータ) (2020-10-07T18:19:09Z) - Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。
具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文 参考訳(メタデータ) (2020-08-21T19:35:54Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Curse of Dimensionality on Randomized Smoothing for Certifiable
Robustness [151.67113334248464]
我々は、他の攻撃モデルに対してスムースな手法を拡張することは困難であることを示す。
我々はCIFARに関する実験結果を示し,その理論を検証した。
論文 参考訳(メタデータ) (2020-02-08T22:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。