Fugu-MT 論文翻訳(概要): Improving Robustness with Adaptive Weight Decay

論文の概要: Improving Robustness with Adaptive Weight Decay

arxiv url: http://arxiv.org/abs/2210.00094v2
Date: Sat, 2 Dec 2023 01:27:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 02:02:46.836286
Title: Improving Robustness with Adaptive Weight Decay
Title（参考訳）: 適応重み減少によるロバスト性の改善
Authors: Amin Ghiasi, Ali Shafahi, Reza Ardekani
Abstract要約: 本稿では,各トレーニング中の重み減衰に対するハイパーパラメータ反復を自動調整する適応的重み減衰法を提案する。この単純な修正は、ロバスト性に大きな改善をもたらす可能性があることを示す。この手法には、学習率に対する感度の低下や重量ノルムの低下など、他の望ましい性質がある。
参考スコア（独自算出の注目度）: 8.096469295357737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose adaptive weight decay, which automatically tunes the hyper-parameter for weight decay during each training iteration. For classification problems, we propose changing the value of the weight decay hyper-parameter on the fly based on the strength of updates from the classification loss (i.e., gradient of cross-entropy), and the regularization loss (i.e., $\ell_2$-norm of the weights). We show that this simple modification can result in large improvements in adversarial robustness -- an area which suffers from robust overfitting -- without requiring extra data across various datasets and architecture choices. For example, our reformulation results in $20\%$ relative robustness improvement for CIFAR-100, and $10\%$ relative robustness improvement on CIFAR-10 comparing to the best tuned hyper-parameters of traditional weight decay resulting in models that have comparable performance to SOTA robustness methods. In addition, this method has other desirable properties, such as less sensitivity to learning rate, and smaller weight norms, which the latter contributes to robustness to overfitting to label noise, and pruning.
Abstract（参考訳）: 本稿では,各トレーニングイテレーション中の重み減衰を自動的に調整する適応的重み減衰法を提案する。分類問題については,分類損失(クロスエントロピーの勾配)と正規化損失(重量の$\ell_2$-norm)からの更新の強さに基づいて,フライ上の重み崩壊ハイパーパラメータの値を変更することを提案する。この単純な修正によって、さまざまなデータセットやアーキテクチャの選択に余分なデータを必要とすることなく、敵の堅牢性 -- 堅牢なオーバーフィッティングに苦しむ領域 -- が大幅に改善されることが示されています。例えば,CIFAR-100の相対ロバスト性改善は20 %,CIFAR-10の相対ロバスト性改善は10 %であった。また, 学習速度に対する感度の低下, 重量ノルムの低下など, ラベルノイズへの過度な適応, プルーニングなど, その他の望ましい特性も備えている。

関連論文リスト

ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。 ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文参考訳（メタデータ） (2026-01-29T18:35:01Z)
AdamHD: Decoupled Huber Decay Regularization for Language Model Pre-Training [0.2578242050187029]
AdamHuberDecayはAdamWのドロップイン代替品で、$ell$ペナルティを分離したスムーズなHuberレギュレータで置き換える。 GPT-2 と GPT-3 の事前学習実験により,AdamHuberDecay は壁面時間で 10-15% の速度で収束することが示された。
論文参考訳（メタデータ） (2025-11-18T18:08:20Z)
Cautious Weight Decay [23.198565281737896]
Cautious Weight Decay (CWD) は、1行の非依存的な修正であり、符号が更新に一致したパラメータのみに重み減衰を適用する。 CWDはAdamW、Lion、Muonなどの座標のドロップイン変更である。言語モデルの事前トレーニングとImageNet分類では、CWDは最終的な損失と精度を一貫して改善する。
論文参考訳（メタデータ） (2025-10-14T11:32:55Z)
Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-08T11:24:59Z)
NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前訓練されたモデルは、リソース集約的で厳しい。広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結する。 NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。
論文参考訳（メタデータ） (2024-10-02T17:29:23Z)
Certified PEFTSmoothing: Parameter-Efficient Fine-Tuning with Randomized Smoothing [6.86204821852287]
ランダム化平滑化は,l2-ノルムの対向摂動に対して,ディープラーニングモデルの頑健性にアクセスするための主要な確証付き頑健性手法である。広く採用されることを制限する顕著な制約は、ベースモデルをスクラッチからリトレーニングし、堅牢なバージョンを得る必要があることである。これは、ベースモデルがノイズの増大したデータ分布を学習し、正確な投票を行うのに失敗するためである。近年の大規模モデルトレーニングに触発されて,ベースモデルに適応して雑音付加データを学ぶために,PEFTSmoothingという別の手法を提案する。
論文参考訳（メタデータ） (2024-04-08T09:38:22Z)
Optimizing for ROC Curves on Class-Imbalanced Data by Training over a Family of Loss Functions [3.06506506650274]
重度のクラス不均衡の下で信頼性の高い分類器を訓練することは、コンピュータビジョンにおいて難しい問題である。近年の研究では、損失関数や最適化方法の変更により、不均衡下でのトレーニングの効果を緩和する手法が提案されている。単一損失関数ではなく、損失関数の族に対するトレーニングを提案する。
論文参考訳（メタデータ） (2024-02-08T04:31:21Z)
FedNAR: Federated Optimization with Normalized Annealing Regularization [54.42032094044368]
ウェイト崩壊の選択を探索し、ウェイト崩壊値が既存のFLアルゴリズムの収束に有意な影響を及ぼすことを確かめる。我々は,既存のFLアルゴリズムにシームレスに統合可能なプラグインであるFederated Optimization with Normalized Annealing Regularization (FedNAR)を開発した。
論文参考訳（メタデータ） (2023-10-04T21:11:40Z)
Improving Generalization of Adversarial Training via Robust Critical Fine-Tuning [19.91117174405902]
ディープニューラルネットワークは敵の例に影響を受けやすく、重要なアプリケーションにおいて重大なセキュリティリスクを生じさせる。本稿では,対向的強靭性を損なうことなく一般化を促進する新しい手法であるロバストネスクリティカルファインタニング(RiFT)を提案する。
論文参考訳（メタデータ） (2023-08-01T09:02:34Z)
Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。 4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文参考訳（メタデータ） (2023-01-18T04:54:58Z)
A Data-driven Loss Weighting Scheme across Heterogeneous Tasks for Image Denoising [67.02529586335473]
変分分解モデルでは、データ忠実度項の重みはノイズ除去能力を高める役割を担っている。本研究では,これらの問題に対処するデータ駆動型損失重み付け手法を提案する。 DLWの顕著な性能を検証し,様々な変分復調モデルの複素雑音処理能力の向上に寄与することを示した。
論文参考訳（メタデータ） (2022-12-09T03:28:07Z)
Data Augmentation Can Improve Robustness [21.485435979018256]
アドリアルトレーニングは、トレーニング中に堅牢なテスト精度が低下し始める現象である、堅牢なオーバーフィッティングに苦しむ。モデルウェイト平均化と組み合わせることで、データの増大がロバストな精度を大幅に向上させることを示した。特に、$ell_infty$ 標準束縛されたサイズ $epsilon = 8/255$ の摂動に対して、我々のモデルは外部データを使わずに60.07%の堅牢な精度に達する。
論文参考訳（メタデータ） (2021-11-09T18:57:00Z)
Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文参考訳（メタデータ） (2021-05-31T17:01:05Z)
Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文参考訳（メタデータ） (2021-05-25T19:48:35Z)
FixNorm: Dissecting Weight Decay for Training Deep Neural Networks [7.820667552233989]
本研究では,2つのメカニズムを直接制御するFixNormという新しいトレーニング手法を提案する。 ImageNet分類タスクでは、FixNormによるEfficientNet-B0のトレーニングは77.7%を達成し、元のベースラインを明確なマージンで上回る。
論文参考訳（メタデータ） (2021-03-29T05:41:56Z)
Dynamic R-CNN: Towards High Quality Object Detection via Dynamic Training [70.2914594796002]
ラベル割り当て基準と回帰損失関数の形状を調整するための動的R-CNNを提案する。我々はResNet-50-FPNベースラインを1.9%のAPと5.5%のAP$_90$で改善し、余分なオーバーヘッドを伴わない。
論文参考訳（メタデータ） (2020-04-13T15:20:25Z)
Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-03-12T07:00:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。