論文の概要: Trainable Weight Averaging: A General Approach for Subspace Training
- arxiv url: http://arxiv.org/abs/2205.13104v3
- Date: Fri, 11 Aug 2023 09:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 18:01:09.432130
- Title: Trainable Weight Averaging: A General Approach for Subspace Training
- Title(参考訳): 訓練可能な重量平均化:サブスペーストレーニングのための一般的なアプローチ
- Authors: Tao Li, Zhehao Huang, Yingwen Wu, Zhengbao He, Qinghua Tao, Xiaolin
Huang, Chih-Jen Lin
- Abstract要約: 低次元サブスペースにおけるディープニューラルネットワーク(DNN)のトレーニングは、効率的なトレーニングとより良いパフォーマンスを達成する上で有望な方向である。
サブスペーストレーニングのための一般的なアプローチであるemphTrainable Weight Averaging (TWA)を提案する。
TWAは部分空間抽出の点で効率的であり、一般化が容易である。
- 参考スコア(独自算出の注目度): 20.58652836107849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep neural networks (DNNs) in low-dimensional subspaces is a
promising direction for achieving efficient training and better generalization
performance. Our previous work extracts the subspaces by performing the
dimension reduction method over the training trajectory, which verifies that
DNN could be well-trained in a tiny subspace. However, that method is
inefficient for subspace extraction and numerically unstable, limiting its
applicability to more general tasks. In this paper, we connect subspace
training to weight averaging and propose \emph{Trainable Weight Averaging}
(TWA), a general approach for subspace training. TWA is efficient in terms of
subspace extraction and easy to use, making it a promising new optimizer for
DNN's training. Our design also includes an efficient scheme that allows
parallel training across multiple nodes to handle large-scale problems and
evenly distribute the memory and computation burden to each node. TWA can be
used for both efficient training and generalization enhancement, for different
neural network architectures, and for various tasks from image classification
and object detection, to neural language processing. The code of implementation
is available at https://github.com/nblt/TWA, which includes extensive
experiments covering various benchmark computer vision and neural language
processing tasks with various architectures.
- Abstract(参考訳): 低次元部分空間におけるディープニューラルネットワーク(DNN)のトレーニングは、効率的なトレーニングとより良い一般化性能を達成する上で有望な方向である。
本研究は,DNNが小部分空間で十分に訓練可能であることを検証したトレーニング軌道上の次元低減法を用いて,部分空間を抽出する。
しかし、この手法は部分空間抽出に非効率であり、数値的に不安定であり、より一般的なタスクに適用可能である。
本稿では,部分空間トレーニングを平均化に結び付けて,部分空間トレーニングの一般的なアプローチである \emph{Trainable Weight Averaging} (TWA) を提案する。
TWAは、サブスペース抽出の点で効率的で使いやすく、DNNのトレーニングに期待できる新しいオプティマイザである。
また,大規模な問題に対処し,各ノードにメモリと計算負荷を均等に分散する並列トレーニングを,複数のノードで行うことができる。
twaは、効率的なトレーニングと一般化の強化、さまざまなニューラルネットワークアーキテクチャ、画像分類やオブジェクト検出からニューラルネットワーク処理に至るまで、さまざまなタスクに使用することができる。
実装コードはhttps://github.com/nblt/twaで利用可能であり、様々なアーキテクチャによるベンチマークコンピュータビジョンとニューラルネットワーク処理タスクをカバーする広範な実験が含まれている。
関連論文リスト
- SeWA: Selective Weight Average via Probabilistic Masking [51.015724517293236]
より良く、より高速な収束を達成するためには、ほんの数ポイントしか必要としないことを示す。
離散選択問題を連続的な部分集合最適化フレームワークに変換する。
両凸画像チェックポイントの値よりもシャープなSeWAの安定性境界を導出する。
論文 参考訳(メタデータ) (2025-02-14T12:35:21Z) - When, Where and Why to Average Weights? [36.106114687828395]
トレーニング軌道に沿ってチェックポイントを平均化することは、機械学習モデルの一般化性能を改善するための強力なアプローチである。
平均化はトレーニングを著しく加速し、最小限の実装とメモリコストの価格でかなりの効率向上をもたらすことを示す。
論文 参考訳(メタデータ) (2025-02-10T18:40:48Z) - Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。
具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。
Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文 参考訳(メタデータ) (2025-01-22T04:01:17Z) - AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。
我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - Lookaround Optimizer: $k$ steps around, 1 step average [36.207388029666625]
重み平均(WA)は、深層ネットワークの簡易化と一般化の促進に効果があるため、活発な研究課題である。
しかし、既存の重量平均アプローチは、ポストホックな方法で1つの訓練軌道に沿って実行されることが多い。
そこで我々は,SGDに基づく単純かつ効果的な一般化であるLookaroundを提案する。
論文 参考訳(メタデータ) (2023-06-13T10:55:20Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - Stochastic Weight Averaging Revisited [5.68481425260348]
SWAの性能は、SWAが収束する前に実行されるSGDプロセスの程度に大きく依存していることを示す。
収束が不十分なSGDプロセスに続き、SWAの実行回数が増えると、一般化の観点で連続的な漸進的なメリットがもたらされることが示される。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。
具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文 参考訳(メタデータ) (2020-08-21T19:35:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。