論文の概要: Bigger&Faster: Two-stage Neural Architecture Search for Quantized
Transformer Models
- arxiv url: http://arxiv.org/abs/2209.12127v1
- Date: Sun, 25 Sep 2022 02:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:49:59.982716
- Title: Bigger&Faster: Two-stage Neural Architecture Search for Quantized
Transformer Models
- Title(参考訳): Bigger&Faster:量子トランスモデルの2段階ニューラルネットワーク探索
- Authors: Yuji Chai, Luke Bailey, Yunho Jin, Matthew Karle, Glenn G. Ko
- Abstract要約: 本稿では、新しい量子化対応パラメータ共有NASであるBigger&Fasterを紹介する。
提案手法は,現在の最先端技術であるAutoTinyBERTよりも優れたBERTモデルを生成することができる。
本手法で得られたモデルはfloat32のパラメータよりも多くのパラメータを持つが,パラメータがint8であるため,メモリフットプリントが大幅に小さい。
- 参考スコア(独自算出の注目度): 0.41998444721319206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural architecture search (NAS) for transformers has been used to create
state-of-the-art models that target certain latency constraints. In this work
we present Bigger&Faster, a novel quantization-aware parameter sharing NAS that
finds architectures for 8-bit integer (int8) quantized transformers. Our
results show that our method is able to produce BERT models that outperform the
current state-of-the-art technique, AutoTinyBERT, at all latency targets we
tested, achieving up to a 2.68% accuracy gain. Additionally, although the
models found by our technique have a larger number of parameters than their
float32 counterparts, due to their parameters being int8, they have
significantly smaller memory footprints.
- Abstract(参考訳): トランスのためのニューラルアーキテクチャサーチ(NAS)は、特定のレイテンシ制約をターゲットとした最先端モデルの作成に使用されている。
本研究では,8ビット整数(int8)量子化変換器のアーキテクチャを見出す新しい量子化パラメータ共有NASであるBigger&Fasterを紹介する。
その結果,現在の最先端技術であるautotinybertに匹敵するbertモデルを生成することが可能となり,最大2.68%の精度向上を達成できた。
さらに,本手法で得られたモデルはfloat32のパラメータよりも多くのパラメータを持つが,パラメータが int8 であるため,メモリフットプリントが著しく小さい。
関連論文リスト
- DOCTOR: Dynamic On-Chip Remediation Against Temporally-Drifting Thermal
Variations Toward Self-Corrected Photonic Tensor Accelerators [6.601010179779731]
フォトニックテンソル加速器は、非平行な速度とエネルギー効率を提供する。
光学的ニューラル加速器の変動耐性を高めるために、オフチップノイズ認識トレーニングとオンチップトレーニングが提案されている。
DOCTORと呼ばれる軽量な動的オンチップ・フレームワークを提案し、時間的ドリフトノイズに対して適応的かつその場での精度回復を実現する。
論文 参考訳(メタデータ) (2024-03-05T06:17:13Z) - Accelerating Deep Neural Networks via Semi-Structured Activation
Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。
そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。
当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T22:28:53Z) - Neural Fields with Hard Constraints of Arbitrary Differential Order [61.49418682745144]
我々は、ニューラルネットワークに厳しい制約を課すための一連のアプローチを開発する。
制約は、ニューラルネットワークとそのデリバティブに適用される線形作用素として指定することができる。
私たちのアプローチは、広範囲の現実世界のアプリケーションで実証されています。
論文 参考訳(メタデータ) (2023-06-15T08:33:52Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - FreeREA: Training-Free Evolution-based Architecture Search [17.202375422110553]
FreeREAは、トレーニングなしメトリクスの最適化組み合わせを利用してアーキテクチャをランク付けする、独自のセルベースの進化NASアルゴリズムである。
本実験はNAS-Bench-101とNATS-Benchの共通ベンチマークを用いて,フリーレアがモデル自動設計のための高速で効率的かつ効果的な探索手法であることを実証した。
論文 参考訳(メタデータ) (2022-06-17T11:16:28Z) - Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文 参考訳(メタデータ) (2021-09-01T03:41:31Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。