論文の概要: Adaptive Regularization for Sparsity Control in Bregman-Based Optimizers
- arxiv url: http://arxiv.org/abs/2605.07892v1
- Date: Fri, 08 May 2026 15:37:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.167201
- Title: Adaptive Regularization for Sparsity Control in Bregman-Based Optimizers
- Title(参考訳): ブラグマン系最適化器の疎度制御のための適応正則化
- Authors: Ahmad Aloradi, Tim Roith, Emanuël A. P. Habets, Daniel Tenbrinck,
- Abstract要約: 本稿では,モデルの現在の空間とターゲット空間との差に基づいて$$を更新する適応正規化手法を提案する。
提案手法は,75%から99%の範囲の空間的目標を確実に達成する。
初期のトレーニングでは、オラクルで調整された非適応ベースラインよりも早く収束し、同じエラー率で最終的なパフォーマンスを達成または上回っている。
- 参考スコア(独自算出の注目度): 14.98763942493771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse training reduces the memory and computational costs of deep neural networks. However, sparse optimization methods, e.g., those adding an $\ell_1$ penalty, often control sparsity only indirectly through a regularization parameter $λ$, whose mapping to the final sparsity rate is non-trivial. In our experiments, we found this parameter sensitivity to be particularly pronounced for Bregman-based optimizers. Specifically, the two variants LinBreg and AdaBreg reach the same sparsity at $λ$ values that differ by up to two orders of magnitude, requiring expensive trial-and-error sweeps to achieve a user-specified sparsity. To address this, we propose an adaptive regularization scheme that updates $λ$ based on the difference between the model's current sparsity and the target sparsity. We analyze the resulting algorithm and evaluate it on automatic speaker verification with ECAPA-TDNN and ResNet34 on VoxCeleb and CNCeleb. The proposed method reliably achieves sparsity targets ranging between 75% and 99%. It also converges faster than the oracle-tuned non-adaptive baseline during early training and matches or surpasses its final performance in equal error rate. We further show that the adaptive scheme inherits key properties from its non-adaptive counterpart, including improved out-of-distribution robustness over the dense baselines.
- Abstract(参考訳): スパーストレーニングにより、ディープニューラルネットワークのメモリと計算コストが削減される。
しかし、例えば$\ell_1$のペナルティを追加するスパース最適化法は、しばしば正規化パラメータ$λ$を通して間接的にのみスパースを制御し、最終的なスパース率への写像は非自明である。
実験の結果,このパラメータ感度はBregmanベースのオプティマイザでは特に顕著であった。
具体的には、LinBregとAdaBregの2つの変種は同じ間隔を、最大2桁まで異なるλ$の値で到達し、ユーザが指定した間隔を達成するために、高価な試行錯誤処理を必要とする。
そこで本研究では,モデルの現在の疎度とターゲット疎度との差に基づいてλ$を更新する適応正規化手法を提案する。
得られたアルゴリズムを解析し,VoxCeleb および CNCeleb 上で ECAPA-TDNN と ResNet34 を用いて自動話者検証を行う。
提案手法は,75%から99%の範囲の空間的目標を確実に達成する。
初期のトレーニングでは、オラクルで調整された非適応ベースラインよりも早く収束し、同じエラー率で最終的なパフォーマンスを達成または上回っている。
さらに、適応型スキームは、高密度ベースライン上での分布外ロバスト性の改善を含む、非適応型スキームから鍵特性を継承することを示す。
関連論文リスト
- Sparse Training of Neural Networks based on Multilevel Mirror Descent [0.688204255655161]
本稿では,線形化されたブレグマン反復/ミラー降下に基づく動的スパーストレーニングアルゴリズムを提案する。
実験により,我々のアルゴリズムは標準ベンチマーク上で高度にスパースで正確なモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2026-02-03T13:51:45Z) - Differentiable Sparsity via $D$-Gating: Simple and Versatile Structured Penalization [22.883367233817836]
D$-Gatingは、理論上、元の群疎性問題の解法と等価であることを示す。
ビジョン、言語、タスクにまたがって私たちの理論を検証する。
論文 参考訳(メタデータ) (2025-09-28T14:08:29Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Smoothed Normalization for Efficient Distributed Private Optimization [54.197255548244705]
フェデレートされた学習は、参加者のプライバシを備えた機械学習モデルを可能にする。
トレーニングやフィードバックのない問題に対して、差分にプライベートな分散手法は存在しない。
証明可能な収束保証付き分散アルゴリズム$alpha$-$sf NormEC$を導入する。
論文 参考訳(メタデータ) (2025-02-19T07:10:32Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Adaptive Stochastic Gradient Descent for Fast and
Communication-Efficient Distributed Learning [33.590006101071765]
マスタが分散降下(SGD)アルゴリズムを$n$ワーカー上で実行したい場合について検討する。
本研究では,分散SGDの適応バージョンが非適応実装と比較して少ない時間で低い誤差値に達することを示す。
論文 参考訳(メタデータ) (2022-08-04T10:57:25Z) - Normalized/Clipped SGD with Perturbation for Differentially Private
Non-Convex Optimization [94.06564567766475]
DP-SGDとDP-NSGDは、センシティブなトレーニングデータを記憶する大規模モデルのリスクを軽減する。
DP-NSGD は DP-SGD よりも比較的チューニングが比較的容易であるのに対して,これらの2つのアルゴリズムは同様の精度を実現する。
論文 参考訳(メタデータ) (2022-06-27T03:45:02Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。