論文の概要: Neural Architecture Search on Efficient Transformers and Beyond
- arxiv url: http://arxiv.org/abs/2207.13955v1
- Date: Thu, 28 Jul 2022 08:41:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 12:22:11.139530
- Title: Neural Architecture Search on Efficient Transformers and Beyond
- Title(参考訳): 効率的なトランスフォーマーのニューラルネットワークによる探索
- Authors: Zexiang Liu, Dong Li, Kaiyue Lu, Zhen Qin, Weixuan Sun, Jiacheng Xu,
Yiran Zhong
- Abstract要約: ニューラルアーキテクチャサーチ(NAS)技術を用いて,効率的なトランスフォーマーのための最適なアーキテクチャを見つけるための新しいフレームワークを提案する。
我々は,効率的なトランスフォーマーの最適アーキテクチャが標準トランスフォーマーと比較して計算量が少ないことを観察した。
検索したアーキテクチャは標準のTransformerに匹敵する精度を維持しており、計算効率が著しく向上している。
- 参考スコア(独自算出の注目度): 23.118556295894376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, numerous efficient Transformers have been proposed to reduce the
quadratic computational complexity of standard Transformers caused by the
Softmax attention. However, most of them simply swap Softmax with an efficient
attention mechanism without considering the customized architectures specially
for the efficient attention. In this paper, we argue that the handcrafted
vanilla Transformer architectures for Softmax attention may not be suitable for
efficient Transformers. To address this issue, we propose a new framework to
find optimal architectures for efficient Transformers with the neural
architecture search (NAS) technique. The proposed method is validated on
popular machine translation and image classification tasks. We observe that the
optimal architecture of the efficient Transformer has the reduced computation
compared with that of the standard Transformer, but the general accuracy is
less comparable. It indicates that the Softmax attention and efficient
attention have their own distinctions but neither of them can simultaneously
balance the accuracy and efficiency well. This motivates us to mix the two
types of attention to reduce the performance imbalance. Besides the search
spaces that commonly used in existing NAS Transformer approaches, we propose a
new search space that allows the NAS algorithm to automatically search the
attention variants along with architectures. Extensive experiments on WMT' 14
En-De and CIFAR-10 demonstrate that our searched architecture maintains
comparable accuracy to the standard Transformer with notably improved
computational efficiency.
- Abstract(参考訳): 近年,ソフトマックスの注意による標準変換器の2次計算複雑性を低減するために,多数の効率的な変換器が提案されている。
しかし、そのほとんどは、特に効率的な注意のためにカスタマイズされたアーキテクチャを考慮せずに、Softmaxを効率的な注意機構に置き換えている。
本稿では,ソフトマックスアテンションのための手作りバニラトランスアーキテクチャは,効率的なトランスフォーマーには適さないかもしれないと論じる。
この問題に対処するために,ニューラルアーキテクチャサーチ(NAS)技術を用いた効率的なトランスフォーマーのための最適なアーキテクチャを見つけるための新しいフレームワークを提案する。
提案手法は一般的な機械翻訳および画像分類タスクで検証される。
効率の良い変圧器の最適アーキテクチャは、標準変圧器と比較して計算量が少ないが、一般的な計算精度は比較にならない。
ソフトマックス・アテンションと効率的なアテンションは、それぞれ独自の特徴を持つが、どちらも正確性と効率のバランスが取れないことを示している。
これはパフォーマンスの不均衡を減らすために、2つのタイプの注意を混ぜ合わせる動機になります。
既存のNASトランスフォーマーアプローチでよく用いられる検索空間の他に,NASアルゴリズムがアーキテクチャとともにアテンションの変種を自動的に検索することのできる新しい検索空間を提案する。
WMTの14 En-De と CIFAR-10 に関する大規模な実験により,検索されたアーキテクチャは,計算効率が著しく向上した標準変換器に匹敵する精度を維持していることが示された。
関連論文リスト
- ALBERTA: ALgorithm-Based Error Resilience in Transformer Architectures [5.502117675161604]
ビジョントランスフォーマーは、信頼性の高い安全クリティカルなアプリケーションにますますデプロイされている。
過渡的ハードウェアエラーのような潜在的なエラーにもかかわらず、実行の正確性を保証することが不可欠である。
アルゴリズムベースのレジリエンスフレームワークであるALBERTAを提案する。
論文 参考訳(メタデータ) (2023-10-05T18:55:30Z) - TurboViT: Generating Fast Vision Transformers via Generative
Architecture Search [74.24393546346974]
近年、視覚変換器は様々な視覚認知タスクに対処する上で、前例のないレベルの性能を示している。
近年,効率的な視覚変換器の設計に関する研究が盛んに行われている。
本研究では,生成型アーキテクチャサーチによる高速ビジョントランスフォーマーアーキテクチャの設計について検討する。
論文 参考訳(メタデータ) (2023-08-22T13:08:29Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - An Algorithm-Hardware Co-Optimized Framework for Accelerating N:M Sparse
Transformers [11.811907838840712]
一般のN:M空間パターンを利用して, フレキシブルかつ効率的にトランスフォーマーを高速化するアルゴリズム・ハードウェア協調最適化フレームワークを提案する。
我々は、N:Mスパーストランスをデプロイする際の大幅な高速化を実現するために、フレキシブルで効率的なハードウェアアーキテクチャ、すなわちSTAを提案する。
実験の結果, 他の方法と比較して, IDPを用いて生成したN:Mスパース変圧器は, トレーニング効率の高い精度で平均6.7%向上することがわかった。
論文 参考訳(メタデータ) (2022-08-12T04:51:49Z) - Are Transformers More Robust? Towards Exact Robustness Verification for
Transformers [3.2259574483835673]
本稿では,トランスフォーマーのロバスト性問題について検討する。
具体的には,Sparsemaxベースのトランスフォーマーに着目し,その最大ロバスト性をMIQCP(Mixed Quadratically Constrained Programming)問題に還元する。
次に、Sparsemaxベースのトランスフォーマーのロバスト性を従来のMLP(Multi-Layer-Perceptron)NNと比較するために、Land Departureを用いて実験を行った。
論文 参考訳(メタデータ) (2022-02-08T15:27:33Z) - Transformer Acceleration with Dynamic Sparse Attention [20.758709319088865]
本稿では,トランスフォーマーの注意における動的間隔を効果的に活用する動的スパース注意(DSA)を提案する。
われわれのアプローチは、精度とモデルの複雑さのトレードオフを改善することができる。
論文 参考訳(メタデータ) (2021-10-21T17:31:57Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z) - Towards Accurate and Compact Architectures via Neural Architecture
Transformer [95.4514639013144]
計算コストを増すことなくパフォーマンスを向上させるために、アーキテクチャ内の操作を最適化する必要がある。
我々は最適化問題をマルコフ決定プロセス(MDP)にキャストするニューラルアーキテクチャ変換器(NAT)法を提案している。
NAT++(Neural Architecture Transformer++)メソッドを提案し、アーキテクチャ最適化のパフォーマンスを改善するために、候補遷移のセットをさらに拡大する。
論文 参考訳(メタデータ) (2021-02-20T09:38:10Z) - Optimizing Inference Performance of Transformers on CPUs [0.0]
トランスフォーマーベースのモデル(BERTなど)は、検索、翻訳、質問応答など、多くの重要なWebサービスを支えている。
本稿では,cpu上でのトランスフォーマモデル参照のスケーラビリティと性能に関する実証分析を行う。
論文 参考訳(メタデータ) (2021-02-12T17:01:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。