Fugu-MT 論文翻訳(概要): On the benefits of non-linear weight updates

論文の概要: On the benefits of non-linear weight updates

arxiv url: http://arxiv.org/abs/2207.12505v1
Date: Mon, 25 Jul 2022 20:09:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-27 13:05:49.143051
Title: On the benefits of non-linear weight updates
Title（参考訳）: 非線形重み付け更新の利点について
Authors: Paul Norridge
Abstract要約: グラディエントDescent法は必ずしもSNR-最適重み設定に繋がるとは限らない。我々は、これを明示するアプローチを提案する。そのようなバランスは、いくつかの共通点において既に暗黙的である。このような非線形アプローチによる性能評価を行う。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent work has suggested that the generalisation performance of a DNN is related to the extent to which the Signal-to-Noise Ratio is optimised at each of the nodes. In contrast, Gradient Descent methods do not always lead to SNR-optimal weight configurations. One way to improve SNR performance is to suppress large weight updates and amplify small weight updates. Such balancing is already implicit in some common optimizers, but we propose an approach that makes this explicit. The method applies a non-linear function to gradients prior to making DNN parameter updates. We investigate the performance with such non-linear approaches. The result is an adaptation to existing optimizers that improves performance for many problem types.
Abstract（参考訳）: 最近の研究は、DNNの一般化性能が各ノードで信号対雑音比が最適化される程度に関係していることを示唆している。対照的に、勾配Descent法は必ずしもSNR-最適重み設定につながるとは限らない。 SNRの性能を改善する1つの方法は、大きな重み更新を抑え、小さな重み更新を増幅することである。このようなバランスは、いくつかの一般的なオプティマイザでは暗黙的であるが、これを明示するアプローチを提案する。 DNNパラメータを更新する前に、非線形関数を勾配に適用する。このような非線形手法による性能調査を行う。その結果、既存のオプティマイザに適応することで、多くの問題タイプのパフォーマンスが向上する。

関連論文リスト

Neural Network Training via Stochastic Alternating Minimization with Trainable Step Sizes [3.246129789918632]
ディープニューラルネットワークのトレーニングは本質的に非最適化問題である。勾配降下(SGD)のような標準的なアプローチでは、パラメータを同時に更新する必要がある。そこで本研究では,SAMTを用いた列車最小化手法を提案する。 SAMTは、最先端のメソッドに比べて、パラメータ更新が少なく、パフォーマンスが向上する。
論文参考訳（メタデータ） (2025-08-06T08:23:38Z)
Dynamic Noise Preference Optimization for LLM Self-Improvement via Synthetic Data [51.62162460809116]
我々は、イテレーション間で一貫した改善を保証するために、動的ノイズ優先最適化(DNPO)を導入します。 Zephyr-7Bでの実験では、DNPOは既存の手法を一貫して上回り、平均性能は2.6%向上した。 DNPOは、GPT-4評価のベースラインに比べて29.4%のウィンロス率差で、モデル生成データの品質が大幅に向上したことを示している。
論文参考訳（メタデータ） (2025-02-08T01:20:09Z)
NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前訓練されたモデルは、リソース集約的で厳しい。広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結する。 NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。
論文参考訳（メタデータ） (2024-10-02T17:29:23Z)
Achieving Constraints in Neural Networks: A Stochastic Augmented Lagrangian Approach [49.1574468325115]
DNN(Deep Neural Networks)の正規化は、一般化性の向上とオーバーフィッティングの防止に不可欠である。制約付き最適化問題としてトレーニングプロセスのフレーミングによるDNN正規化に対する新しいアプローチを提案する。我々はAugmented Lagrangian (SAL) 法を用いて、より柔軟で効率的な正規化機構を実現する。
論文参考訳（メタデータ） (2023-10-25T13:55:35Z)
ELRA: Exponential learning rate adaption gradient descent optimization method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。本手法の主な考え方は,状況認識による$alphaの適応である。これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文参考訳（メタデータ） (2023-09-12T14:36:13Z)
AdaNorm: Adaptive Gradient Norm Correction based Optimizer for CNNs [23.523389372182613]
勾配降下(SGD)は一般に畳み込みニューラルネットワーク(CNN)の訓練に使用される既存のSGDは過去の反復の勾配基準を活用せず、収束と性能の低下につながる。本稿では,AdaNormをベースとした新しいSGDを提案する。
論文参考訳（メタデータ） (2022-10-12T16:17:25Z)
Recurrent Bilinear Optimization for Binary Neural Networks [58.972212365275595]
BNNは、実数値重みとスケールファクターの内在的双線型関係を無視している。私たちの仕事は、双線形の観点からBNNを最適化する最初の試みです。我々は、様々なモデルやデータセット上で最先端のBNNに対して印象的な性能を示す頑健なRBONNを得る。
論文参考訳（メタデータ） (2022-09-04T06:45:33Z)
Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文参考訳（メタデータ） (2022-04-18T17:53:44Z)
AdaTerm: Adaptive T-Distribution Estimated Robust Moments for Noise-Robust Stochastic Gradient Optimization [14.531550983885772]
本稿では,学生のt分布を取り入れた新しいアプローチであるAdaTermを提案する。これは最適化プロセスの統一的な処理を提供し、初めてt分布の統計モデルの下で包括的なフレームワークを提供する。
論文参考訳（メタデータ） (2022-01-18T03:13:19Z)
LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。 LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文参考訳（メタデータ） (2020-12-21T06:40:20Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
DDPNOpt: Differential Dynamic Programming Neural Optimizer [29.82841891919951]
トレーニングのための最も広く使われているアルゴリズムは、差分動的プログラミング(DDP)とリンク可能であることを示す。本稿では,フィードフォワードと畳み込みネットワークをトレーニングするためのDDPOptの新たなクラスを提案する。
論文参考訳（メタデータ） (2020-02-20T15:42:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。