論文の概要: Trainable Weight Averaging: A General Approach for Subspace Training
- arxiv url: http://arxiv.org/abs/2205.13104v3
- Date: Fri, 11 Aug 2023 09:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 18:01:09.432130
- Title: Trainable Weight Averaging: A General Approach for Subspace Training
- Title(参考訳): 訓練可能な重量平均化:サブスペーストレーニングのための一般的なアプローチ
- Authors: Tao Li, Zhehao Huang, Yingwen Wu, Zhengbao He, Qinghua Tao, Xiaolin
Huang, Chih-Jen Lin
- Abstract要約: 低次元サブスペースにおけるディープニューラルネットワーク(DNN)のトレーニングは、効率的なトレーニングとより良いパフォーマンスを達成する上で有望な方向である。
サブスペーストレーニングのための一般的なアプローチであるemphTrainable Weight Averaging (TWA)を提案する。
TWAは部分空間抽出の点で効率的であり、一般化が容易である。
- 参考スコア(独自算出の注目度): 20.58652836107849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep neural networks (DNNs) in low-dimensional subspaces is a
promising direction for achieving efficient training and better generalization
performance. Our previous work extracts the subspaces by performing the
dimension reduction method over the training trajectory, which verifies that
DNN could be well-trained in a tiny subspace. However, that method is
inefficient for subspace extraction and numerically unstable, limiting its
applicability to more general tasks. In this paper, we connect subspace
training to weight averaging and propose \emph{Trainable Weight Averaging}
(TWA), a general approach for subspace training. TWA is efficient in terms of
subspace extraction and easy to use, making it a promising new optimizer for
DNN's training. Our design also includes an efficient scheme that allows
parallel training across multiple nodes to handle large-scale problems and
evenly distribute the memory and computation burden to each node. TWA can be
used for both efficient training and generalization enhancement, for different
neural network architectures, and for various tasks from image classification
and object detection, to neural language processing. The code of implementation
is available at https://github.com/nblt/TWA, which includes extensive
experiments covering various benchmark computer vision and neural language
processing tasks with various architectures.
- Abstract(参考訳): 低次元部分空間におけるディープニューラルネットワーク(DNN)のトレーニングは、効率的なトレーニングとより良い一般化性能を達成する上で有望な方向である。
本研究は,DNNが小部分空間で十分に訓練可能であることを検証したトレーニング軌道上の次元低減法を用いて,部分空間を抽出する。
しかし、この手法は部分空間抽出に非効率であり、数値的に不安定であり、より一般的なタスクに適用可能である。
本稿では,部分空間トレーニングを平均化に結び付けて,部分空間トレーニングの一般的なアプローチである \emph{Trainable Weight Averaging} (TWA) を提案する。
TWAは、サブスペース抽出の点で効率的で使いやすく、DNNのトレーニングに期待できる新しいオプティマイザである。
また,大規模な問題に対処し,各ノードにメモリと計算負荷を均等に分散する並列トレーニングを,複数のノードで行うことができる。
twaは、効率的なトレーニングと一般化の強化、さまざまなニューラルネットワークアーキテクチャ、画像分類やオブジェクト検出からニューラルネットワーク処理に至るまで、さまざまなタスクに使用することができる。
実装コードはhttps://github.com/nblt/twaで利用可能であり、様々なアーキテクチャによるベンチマークコンピュータビジョンとニューラルネットワーク処理タスクをカバーする広範な実験が含まれている。
関連論文リスト
- Training Artificial Neural Networks by Coordinate Search Algorithm [0.20971479389679332]
本稿では、ニューラルネットワークのトレーニングのための勾配自由座標探索(CS)アルゴリズムの効率的なバージョンを提案する。
提案アルゴリズムは、微分不可能なアクティベーション関数で使用することができ、多目的/マルチロス問題に適合する。
ANNの重みに対する最適値を求めることは、大規模な最適化問題である。
論文 参考訳(メタデータ) (2024-02-20T01:47:25Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - Efficient Implementation of a Multi-Layer Gradient-Free Online-Trainable
Spiking Neural Network on FPGA [0.31498833540989407]
ODESAは、グラデーションを使わずに、エンド・ツー・エンドの多層オンラインローカル教師ありトレーニングを行う最初のネットワークである。
本研究は,ネットワークアーキテクチャと重みとしきい値のオンライントレーニングを,大規模ハードウェア上で効率的に実施可能であることを示す。
論文 参考訳(メタデータ) (2023-05-31T00:34:15Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Efficient and Robust Mixed-Integer Optimization Methods for Training
Binarized Deep Neural Networks [0.07614628596146598]
二元活性化関数と連続または整数重み付きディープニューラルネットワーク(BDNN)について検討する。
BDNNは、古典的な混合整数計画解法により、大域的最適性に解けるような、有界な重み付き混合整数線形プログラムとして再構成可能であることを示す。
トレーニング中にBDNNの堅牢性を強制するロバストモデルが初めて提示される。
論文 参考訳(メタデータ) (2021-10-21T18:02:58Z) - Exploring the Common Principal Subspace of Deep Features in Neural
Networks [50.37178960258464]
我々は、同じデータセットでトレーニングされた異なるディープニューラルネットワーク(DNN)が、潜在空間において共通の主部分空間を共有することを発見した。
具体的には、DNNで学んだ深い機能の主部分空間を表すために、$mathcalP$-vectorを新たに設計する。
異なるアルゴリズム/アーキテクチャで訓練された2つのDNNの比較では、小さな角度(コサインが1.0ドルに近い)が見つかっている。
論文 参考訳(メタデータ) (2021-10-06T15:48:32Z) - Embedded Knowledge Distillation in Depth-level Dynamic Neural Network [8.207403859762044]
類似アーキテクチャの異なる深層サブネットを統合した、エレガントな深層ダイナミックニューラルネットワーク(DDNN)を提案する。
本稿では、DDNNが教師(フル)ネットから複数のサブネットへの意味的知識伝達を実装するためのEKD(Embedded-Knowledge-Distillation)トレーニング機構を設計する。
CIFAR-10、CIFAR-100、ImageNetデータセットの実験では、EKDトレーニングを備えたDDNNのサブネットは、深さレベルの切断または個別トレーニングよりも優れたパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-01T06:35:31Z) - Learning Neural Network Subspaces [74.44457651546728]
近年の観測は,ニューラルネットワーク最適化の展望の理解を深めている。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
1つのモデルのトレーニングと同じ計算コストで、高精度ニューラルネットワークの線、曲線、単純軸を学習します。
論文 参考訳(メタデータ) (2021-02-20T23:26:58Z) - Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality
Regularization and Singular Value Sparsification [53.50708351813565]
各ステップにSVDを適用することなく、トレーニング中に低ランクDNNを明示的に達成する最初の方法であるSVDトレーニングを提案する。
SVDトレーニングがDNN層のランクを著しく低減し,同じ精度で計算負荷の低減を実現することを実証的に示す。
論文 参考訳(メタデータ) (2020-04-20T02:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。