論文の概要: Simultaneous Training of Partially Masked Neural Networks
- arxiv url: http://arxiv.org/abs/2106.08895v1
- Date: Wed, 16 Jun 2021 15:57:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 17:15:05.297217
- Title: Simultaneous Training of Partially Masked Neural Networks
- Title(参考訳): 部分的マスクニューラルネットワークの同時学習
- Authors: Amirkeivan Mohtashami, Martin Jaggi, Sebastian U. Stich
- Abstract要約: トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
- 参考スコア(独自算出の注目度): 67.19481956584465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For deploying deep learning models to lower end devices, it is necessary to
train less resource-demanding variants of state-of-the-art architectures. This
does not eliminate the need for more expensive models as they have a higher
performance. In order to avoid training two separate models, we show that it is
possible to train neural networks in such a way that a predefined 'core'
subnetwork can be split-off from the trained full network with remarkable good
performance. We extend on prior methods that focused only on core networks of
smaller width, while we focus on supporting arbitrary core network
architectures. Our proposed training scheme switches consecutively between
optimizing only the core part of the network and the full one. The accuracy of
the full model remains comparable, while the core network achieves better
performance than when it is trained in isolation. In particular, we show that
training a Transformer with a low-rank core gives a low-rank model with
superior performance than when training the low-rank model alone. We analyze
our training scheme theoretically, and show its convergence under assumptions
that are either standard or practically justified. Moreover, we show that the
developed theoretical framework allows analyzing many other partial training
schemes for neural networks.
- Abstract(参考訳): ディープラーニングモデルをローエンドデバイスにデプロイするには、最先端アーキテクチャのリソース要求の少ないバリエーションをトレーニングする必要がある。
これは、より高いパフォーマンスを持つため、より高価なモデルの必要性をなくすものではない。
2つの異なるモデルのトレーニングを避けるために、事前定義された「コア」サブネットワークをトレーニングされたフルネットワークから切り離して、優れたパフォーマンスでニューラルネットワークを訓練することが可能であることを示す。
我々は、幅の小さいコアネットワークのみに焦点を当てた先行手法を拡張し、任意のコアネットワークアーキテクチャをサポートすることに重点を置いている。
提案手法では,ネットワークのコア部分のみを最適化し,全部分を最適化する。
完全なモデルの精度は相変わらず、コアネットワークは独立してトレーニングされた時よりも優れたパフォーマンスを達成する。
特に,低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独でのトレーニングよりも優れた低ランクモデルが得られることを示す。
理論上はトレーニングスキームを解析し,標準的あるいは事実上正当化された仮定下での収束を示す。
さらに,この理論フレームワークにより,ニューラルネットワークの他の部分的トレーニングスキームを解析できることを示す。
関連論文リスト
- Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - ATOM: Asynchronous Training of Massive Models for Deep Learning in a Decentralized Environment [7.916080032572087]
Atomは、分散化された環境で巨大なモデルの非同期トレーニング用に設計された、レジリエントな分散トレーニングフレームワークである。
atomは、スワップをシームレスにモデルし、トレーニングスループットを最適化するために複数のコピーを同時にトレーニングすることで、1つのホスト(ピア)に完全なLLMを適合させることを目的としている。
異なるGPT-3モデル構成を用いて実験したところ、最適ネットワーク接続のシナリオでは、原子は最先端の分散パイプライン並列化アプローチを組み込んだ場合、トレーニング効率を最大20倍に向上させることができることがわかった。
論文 参考訳(メタデータ) (2024-03-15T17:43:43Z) - Subnetwork-to-go: Elastic Neural Network with Dynamic Training and
Customizable Inference [16.564868336748503]
本稿では,大規模ネットワークを訓練し,モデルサイズや複雑性の制約を考慮し,そのサブネットワークを柔軟に抽出する簡単な方法を提案する。
音源分離モデルによる実験結果から,提案手法は,異なるサブネットワークサイズと複雑度をまたいだ分離性能を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-12-06T12:40:06Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Decentralized Training of Foundation Models in Heterogeneous
Environments [77.47261769795992]
GPT-3 や PaLM のようなトレーニング基盤モデルは、非常に高価である。
ヘテロジニアスネットワーク上での分散型システムにおけるモデル並列化を用いた大規模基盤モデルのトレーニングに関する最初の研究について述べる。
論文 参考訳(メタデータ) (2022-06-02T20:19:51Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。