Fugu-MT 論文翻訳(概要): Trainable Weight Averaging for Fast Convergence and Better Generalization

論文の概要: Trainable Weight Averaging for Fast Convergence and Better Generalization

arxiv url: http://arxiv.org/abs/2205.13104v1
Date: Thu, 26 May 2022 01:54:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-27 14:25:34.718407
Title: Trainable Weight Averaging for Fast Convergence and Better Generalization
Title（参考訳）: 高速収束と一般化のためのトレーニング可能なウェイト平均化
Authors: Tao Li, Zhehao Huang, Qinghua Tao, Yingwen Wu, Xiaolin Huang
Abstract要約: 勾配降下(SGD)とその変種は、ディープニューラルネットワーク(DNN)を訓練するためのデファクト方法として一般的に考えられている本稿では、平均化係数を最適化し、トレーニング可能なウェイト平均化(TWA)を実現することを提案する。 TWAは非常に効率的で、訓練の自由度が小さいため、優れた一般化能力を有する。
参考スコア（独自算出の注目度）: 16.889350251132146
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Stochastic gradient descent (SGD) and its variants are commonly considered as the de-facto methods to train deep neural networks (DNNs). While recent improvements to SGD mainly focus on the descent algorithm itself, few works pay attention to utilizing the historical solutions -- as an iterative method, SGD has actually gone through substantial explorations before its final convergence. Recently, an interesting attempt is stochastic weight averaging (SWA), which significantly improves the generalization by simply averaging the solutions at the tail stage of training. In this paper, we propose to optimize the averaging coefficients, leading to our Trainable Weight Averaging (TWA), essentially a novel training method in a reduced subspace spanned by historical solutions. TWA is quite efficient and has good generalization capability as the degree of freedom for training is small. It largely reduces the estimation error from SWA, making it not only further improve the SWA solutions but also take full advantage of the solutions generated in the head of training where SWA fails. In the extensive numerical experiments, (i) TWA achieves consistent improvements over SWA with less sensitivity to learning rate; (ii) applying TWA in the head stage of training largely speeds up the convergence, resulting in over 40% time saving on CIFAR and 30% on ImageNet with improved generalization compared with regular training. The code is released at https://github.com/nblt/TWA.
Abstract（参考訳）: 確率勾配降下(SGD)とその変種は、ディープニューラルネットワーク(DNN)を訓練するためのデファクト手法として一般的に考えられている。 SGDの最近の改良は、主に降下アルゴリズムそのものに焦点が当てられているが、過去のソリューションを反復的な方法として活用することに注意を払っている研究はほとんどない。最近の興味深い試みは確率的ウェイト平均化(SWA)であり、これは訓練の尾の段階で解を単に平均化することで一般化を著しく改善する。本稿では, 平均化係数の最適化を提案し, 歴史的解に代表される減算部分空間における新しいトレーニング手法であるTWA(Trainable Weight Averaging)を導いた。 TWAは非常に効率的で、訓練の自由度が小さいため、優れた一般化能力を有する。これにより、SWAからの推定誤差を大幅に低減し、SWAソリューションをさらに改善するだけでなく、SWAが失敗するトレーニングヘッドで生成されるソリューションを最大限に活用することができる。大規模な数値実験で。 (i)TWAは学習率に敏感なSWAに対して一貫した改善を実現する。 (II)トレーニングの先頭段階にTWAを適用すると、コンバージェンスが大幅にスピードアップし、CIFARが40%以上、ImageNetが30%以上削減され、通常のトレーニングに比べて一般化が向上する。コードはhttps://github.com/nblt/twaでリリースされる。

関連論文リスト

SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。離散選択問題を連続的な部分集合最適化フレームワークに変換する。両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文参考訳（メタデータ） (2025-02-14T12:35:21Z)
When, Where and Why to Average Weights? [36.106114687828395]
トレーニング軌道に沿ってチェックポイントを平均化することは、機械学習モデルの一般化性能を改善するための強力なアプローチである。平均化はトレーニングを著しく加速し、最小限の実装とメモリコストの価格でかなりの効率向上をもたらすことを示す。
論文参考訳（メタデータ） (2025-02-10T18:40:48Z)
Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。 Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文参考訳（メタデータ） (2025-01-22T04:01:17Z)
AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [61.13296177652599]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。 2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文参考訳（メタデータ） (2024-07-29T17:06:30Z)
Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。 ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文参考訳（メタデータ） (2024-02-20T01:47:25Z)
Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文参考訳（メタデータ） (2023-07-13T16:39:08Z)
Lookaround Optimizer: $k$ steps around, 1 step average [36.207388029666625]
重み平均(WA)は、深層ネットワークの簡易化と一般化の促進に効果があるため、活発な研究課題である。しかし、既存の重量平均アプローチは、ポストホックな方法で1つの訓練軌道に沿って実行されることが多い。そこで我々は,SGDに基づく単純かつ効果的な一般化であるLookaroundを提案する。
論文参考訳（メタデータ） (2023-06-13T10:55:20Z)
Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。与えられた層における学習された表現は拡散冗長性を示す。我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文参考訳（メタデータ） (2023-05-31T21:00:50Z)
Efficient Implementation of a Multi-Layer Gradient-Free Online-Trainable Spiking Neural Network on FPGA [0.31498833540989407]
ODESAは、グラデーションを使わずに、エンド・ツー・エンドの多層オンラインローカル教師ありトレーニングを行う最初のネットワークである。本研究は,ネットワークアーキテクチャと重みとしきい値のオンライントレーニングを,大規模ハードウェア上で効率的に実施可能であることを示す。
論文参考訳（メタデータ） (2023-05-31T00:34:15Z)
Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文参考訳（メタデータ） (2022-11-19T15:44:08Z)
Distributed Adversarial Training to Robustify Deep Neural Networks at Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-13T15:39:43Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
Stochastic Weight Averaging Revisited [5.68481425260348]
SWAの性能は、SWAが収束する前に実行されるSGDプロセスの程度に大きく依存していることを示す。収束が不十分なSGDプロセスに続き、SWAの実行回数が増えると、一般化の観点で連続的な漸進的なメリットがもたらされることが示される。
論文参考訳（メタデータ） (2022-01-03T08:29:01Z)
Efficient and Robust Mixed-Integer Optimization Methods for Training Binarized Deep Neural Networks [0.07614628596146598]
二元活性化関数と連続または整数重み付きディープニューラルネットワーク(BDNN)について検討する。 BDNNは、古典的な混合整数計画解法により、大域的最適性に解けるような、有界な重み付き混合整数線形プログラムとして再構成可能であることを示す。トレーニング中にBDNNの堅牢性を強制するロバストモデルが初めて提示される。
論文参考訳（メタデータ） (2021-10-21T18:02:58Z)
Exploring the Common Principal Subspace of Deep Features in Neural Networks [50.37178960258464]
我々は、同じデータセットでトレーニングされた異なるディープニューラルネットワーク(DNN)が、潜在空間において共通の主部分空間を共有することを発見した。具体的には、DNNで学んだ深い機能の主部分空間を表すために、$mathcalP$-vectorを新たに設計する。異なるアルゴリズム/アーキテクチャで訓練された2つのDNNの比較では、小さな角度(コサインが1.0ドルに近い)が見つかっている。
論文参考訳（メタデータ） (2021-10-06T15:48:32Z)
Embedded Knowledge Distillation in Depth-level Dynamic Neural Network [8.207403859762044]
類似アーキテクチャの異なる深層サブネットを統合した、エレガントな深層ダイナミックニューラルネットワーク(DDNN)を提案する。本稿では、DDNNが教師(フル)ネットから複数のサブネットへの意味的知識伝達を実装するためのEKD(Embedded-Knowledge-Distillation)トレーニング機構を設計する。 CIFAR-10、CIFAR-100、ImageNetデータセットの実験では、EKDトレーニングを備えたDDNNのサブネットは、深さレベルの切断または個別トレーニングよりも優れたパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-03-01T06:35:31Z)
Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。 1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文参考訳（メタデータ） (2021-02-20T23:26:58Z)
Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文参考訳（メタデータ） (2020-08-21T19:35:54Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。 SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文参考訳（メタデータ） (2020-04-20T02:40:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。