論文の概要: SuperShaper: Task-Agnostic Super Pre-training of BERT Models with
Variable Hidden Dimensions
- arxiv url: http://arxiv.org/abs/2110.04711v1
- Date: Sun, 10 Oct 2021 05:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:10:59.609446
- Title: SuperShaper: Task-Agnostic Super Pre-training of BERT Models with
Variable Hidden Dimensions
- Title(参考訳): SuperShaper: 可変隠れ次元を持つBERTモデルのタスク非依存型スーパープレトレーニング
- Authors: Vinod Ganesan, Gowtham Ramesh, Pratyush Kumar
- Abstract要約: SuperShaper は NLU モデルのタスクに依存しない事前学習手法である。
異なる形状で多数のトランスフォーマーモデルを同時に事前訓練する。
SuperShaperは、精度とモデルサイズを効果的にトレードオフするネットワークを発見する。
- 参考スコア(独自算出の注目度): 2.8583189395674653
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-agnostic pre-training followed by task-specific fine-tuning is a default
approach to train NLU models. Such models need to be deployed on devices across
the cloud and the edge with varying resource and accuracy constraints. For a
given task, repeating pre-training and fine-tuning across tens of devices is
prohibitively expensive. We propose SuperShaper, a task agnostic pre-training
approach which simultaneously pre-trains a large number of Transformer models
by varying shapes, i.e., by varying the hidden dimensions across layers. This
is enabled by a backbone network with linear bottleneck matrices around each
Transformer layer which are sliced to generate differently shaped sub-networks.
In spite of its simple design space and efficient implementation, SuperShaper
discovers networks that effectively trade-off accuracy and model size:
Discovered networks are more accurate than a range of hand-crafted and
automatically searched networks on GLUE benchmarks. Further, we find two
critical advantages of shape as a design variable for Neural Architecture
Search (NAS): (a) heuristics of good shapes can be derived and networks found
with these heuristics match and even improve on carefully searched networks
across a range of parameter counts, and (b) the latency of networks across
multiple CPUs and GPUs are insensitive to the shape and thus enable
device-agnostic search. In summary, SuperShaper radically simplifies NAS for
language models and discovers networks that generalize across tasks, parameter
constraints, and devices.
- Abstract(参考訳): タスクに依存しない事前トレーニングとタスク固有の微調整は、NLUモデルをトレーニングするためのデフォルトのアプローチである。
このようなモデルは、さまざまなリソースと精度の制約で、クラウドとエッジのデバイスにデプロイする必要があります。
特定のタスクでは、何万ものデバイスで事前トレーニングや微調整を繰り返すのは、非常に高価です。
超シェーパー(supershaper)は,多数のトランスフォーマーモデルを同時にプレトレーニングするタスク非依存の事前トレーニング手法である。
これは、各トランスフォーマー層に線形なボトルネック行列を持つバックボーンネットワークによって実現され、スライスして異なる形状のサブネットワークを生成する。
単純な設計空間と効率的な実装にもかかわらず、SuperShaperは、効果的にトレードオフの精度とモデルサイズを示すネットワークを発見する: 発見されたネットワークは、GLUEベンチマーク上で手作りのネットワークや自動検索ネットワークよりも正確である。
さらに,ニューラルアーキテクチャ探索(nas)のための設計変数としての形状の2つの重要な利点を見出す。
(a)良好な形状のヒューリスティックが導出され、これらのヒューリスティックスを持つネットワークが一致し、パラメータ数の範囲にわたって慎重に検索されたネットワーク上でも改善される。
b) 複数のCPUやGPUにまたがるネットワークのレイテンシは、形状に敏感であり、デバイスに依存しない検索を可能にする。
要約すると、SuperShaperは言語モデルのNASを根本的に単純化し、タスク、パラメータ制約、デバイスをまたいで一般化するネットワークを発見する。
関連論文リスト
- Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - On Optimizing the Communication of Model Parallelism [74.15423270435949]
大規模モデル並列ディープラーニング(DL)における新しい重要なコミュニケーションパターンについて検討する。
クロスメッシュリシャーディングでは、シャードテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。
本稿では、効率的な放送ベースの通信システムと「重複しやすい」パイプラインスケジュールという、クロスメシュ・リシャーディングに対処するための2つのコントリビューションを提案する。
論文 参考訳(メタデータ) (2022-11-10T03:56:48Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - Searching for Efficient Multi-Stage Vision Transformers [42.0565109812926]
Vision Transformer (ViT)は、自然言語処理のためのTransformerがコンピュータビジョンタスクに適用可能であることを示す。
ViT-ResNASは、ニューラルネットワークサーチ(NAS)で設計された効率的なマルチステージViTアーキテクチャである
論文 参考訳(メタデータ) (2021-09-01T22:37:56Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - FNA++: Fast Network Adaptation via Parameter Remapping and Architecture
Search [35.61441231491448]
本稿では,シードネットワークのアーキテクチャとパラメータの両方を適応できるFNA++法を提案する。
実験では、FNA++をMobileNetV2に適用し、セマンティックセグメンテーション、オブジェクト検出、人間のポーズ推定のための新しいネットワークを得る。
FNA++の総計算コストは、SOTAセグメンテーションやNASアプローチよりも大幅に少ない。
論文 参考訳(メタデータ) (2020-06-21T10:03:34Z) - Ensembled sparse-input hierarchical networks for high-dimensional
datasets [8.629912408966145]
サンプルサイズが小さい環境では,高密度ニューラルネットワークが実用的なデータ解析ツールであることを示す。
提案手法は,L1-ペナルティパラメータを2つだけ調整することで,ネットワーク構造を適切に調整する。
EASIER-netは、異なるサイズの実世界のデータセットのコレクションにおいて、データ適応方式でネットワークアーキテクチャを選択し、平均的なオフザシェルフ手法よりも高い予測精度を達成した。
論文 参考訳(メタデータ) (2020-05-11T02:08:53Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - DHP: Differentiable Meta Pruning via HyperNetworks [158.69345612783198]
本稿では,ネットワークの自動プルーニングのためのハイパーネットによる識別可能なプルーニング手法を提案する。
遅延ベクトルは、バックボーンネットワーク内の畳み込み層の出力チャネルを制御し、レイヤのプルーニングのハンドルとして機能する。
画像分類、単一画像超解像、復調のための様々なネットワークで実験が行われた。
論文 参考訳(メタデータ) (2020-03-30T17:59:18Z) - Fast Neural Network Adaptation via Parameter Remapping and Architecture
Search [35.61441231491448]
ディープニューラルネットワークは多くのコンピュータビジョンタスクにおいて顕著なパフォーマンスを達成する。
ほとんどの最新技術(SOTA)セマンティックセグメンテーションとオブジェクト検出アプローチは、バックボーンとしてイメージ分類用に設計されたニューラルネットワークアーキテクチャを再利用する。
しかし、大きな課題の1つは、画像Netによる検索空間表現の事前トレーニングが膨大な計算コストを発生させることである。
本稿では、シードネットワークのアーキテクチャとパラメータの両方を適応できる高速ニューラルネットワーク適応(FNA)手法を提案する。
論文 参考訳(メタデータ) (2020-01-08T13:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。