論文の概要: Theoretical Analysis of Sparse Optimization with Reparameterization, Weight Decay, and Adaptive Learning Rate
- arxiv url: http://arxiv.org/abs/2605.25134v2
- Date: Wed, 27 May 2026 19:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:54.635128
- Title: Theoretical Analysis of Sparse Optimization with Reparameterization, Weight Decay, and Adaptive Learning Rate
- Title(参考訳): Reparameterization, Weight Decay, Adaptive Learning Rateを用いたスパース最適化の理論解析
- Authors: Huangyu Xu, Jingqin Yang, Qianqian Xu, Jiaye Teng,
- Abstract要約: 本稿では,ReWAと呼ばれるスパース最適化手法を提案する。
CIFAR-10とImageNet with ResNetsの実験では、ReWAが大幅なスパシティ改善をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 43.36422747723672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse optimization is a fundamental challenge in various practical applications. A popular approach to sparse optimization is $\ell_p$ regularization. However, it may encounter optimization instability due to the unbounded gradients when $0<p<1$. In this paper, we introduce a novel approach to sparse optimization termed ReWA, based on Reparameterization, Weight decay, and Adaptive learning rate. ReWA is closely connected to $\ell_p$-regularization, yet it unveils a distinct optimization landscape that helps mitigate instability issues. Experiments on CIFAR-10 and ImageNet with ResNets demonstrate that ReWA leads to significant sparsity improvements over the $\ell_1$-regularization approach while preserving test accuracy.
- Abstract(参考訳): スパース最適化は様々な応用において基本的な課題である。
スパース最適化の一般的なアプローチは、$\ell_p$正規化である。
しかし、0<p<1$のときの非有界勾配のため、最適化の不安定性に直面することがある。
本稿では,Reparameterization, Weight decay, Adaptive Learning rateに基づくスパース最適化手法ReWAを提案する。
ReWAは$\ell_p$-regularizationと密接に結びついているが、不安定な問題を緩和するための明確な最適化の展望を公開している。
CIFAR-10とImageNet with ResNetsの実験は、ReWAがテスト精度を保ちながら$\ell_1$-regularizationアプローチを大幅に改善することを示した。
関連論文リスト
- Diff3R: Feed-forward 3D Gaussian Splatting with Uncertainty-aware Differentiable Optimization [76.38917994186733]
Diff3Rはフィードフォワード予測とテストタイム最適化をブリッジする新しいフレームワークである。
フィードフォワード3DGSアーキテクチャにシームレスに統合でき、ポーズギヴン法とポーズフリー法の両方に対応できることを示す。
論文 参考訳(メタデータ) (2026-04-01T15:40:20Z) - AYLA: Amplifying Gradient Sensitivity via Loss Transformation in Non-Convex Optimization [0.0]
Gradient Descent (SGD)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。
本稿では、動的トレーニングを強化する新しいフレームワークであるAYLAを紹介する。
論文 参考訳(メタデータ) (2025-04-02T16:31:39Z) - Adaptive Friction in Deep Learning: Enhancing Optimizers with Sigmoid and Tanh Function [0.0]
我々は適応摩擦係数を統合する2つの新しい勾配であるsigSignGradとtanhSignGradを紹介する。
我々の理論解析は,摩擦係数Sの広帯域調整能力を示す。
ResNet50 と ViT アーキテクチャを用いた CIFAR-10, Mini-Image-Net 実験により,提案手法の優れた性能が確認された。
論文 参考訳(メタデータ) (2024-08-07T03:20:46Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Iterative Reweighted Least Squares Networks With Convergence Guarantees
for Solving Inverse Imaging Problems [12.487990897680422]
解析に基づく画像正規化における画像再構成タスクの新しい最適化手法を提案する。
そのような正規化子は $ell_pp$-vector および $mathcalS_pp$ Schatten-matrix 準ノルムの重み付き拡張に対応するポテンシャル関数を用いてパラメータ化する。
提案する最小化戦略の収束保証により,メモリ効率の高い暗黙バックプロパゲーション方式により,そのような最適化を成功させることができることを示す。
論文 参考訳(メタデータ) (2023-08-10T17:59:46Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - The Role of Momentum Parameters in the Optimal Convergence of Adaptive
Polyak's Heavy-ball Methods [12.93796690939018]
適応型Polyak's Heavy-ball (HB) 法は最適な個人収束率を$O(frac1sqrtt)$とする。
新しい解析では,hb運動量とその時間的変動が凸最適化の高速化にどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-02-15T02:57:14Z) - Obtaining Adjustable Regularization for Free via Iterate Averaging [43.75491612671571]
最適化のための正規化は、機械学習の過度な適合を避けるための重要なテクニックである。
我々は、任意の強凸かつ滑らかな対象関数上のSGDの繰り返しを正規化された関数に変換する平均化スキームを確立する。
提案手法は,高速化および事前条件最適化手法にも利用できる。
論文 参考訳(メタデータ) (2020-08-15T15:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。