論文の概要: Bigger&Faster: Two-stage Neural Architecture Search for Quantized
Transformer Models
- arxiv url: http://arxiv.org/abs/2209.12127v1
- Date: Sun, 25 Sep 2022 02:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:49:59.982716
- Title: Bigger&Faster: Two-stage Neural Architecture Search for Quantized
Transformer Models
- Title(参考訳): Bigger&Faster:量子トランスモデルの2段階ニューラルネットワーク探索
- Authors: Yuji Chai, Luke Bailey, Yunho Jin, Matthew Karle, Glenn G. Ko
- Abstract要約: 本稿では、新しい量子化対応パラメータ共有NASであるBigger&Fasterを紹介する。
提案手法は,現在の最先端技術であるAutoTinyBERTよりも優れたBERTモデルを生成することができる。
本手法で得られたモデルはfloat32のパラメータよりも多くのパラメータを持つが,パラメータがint8であるため,メモリフットプリントが大幅に小さい。
- 参考スコア(独自算出の注目度): 0.41998444721319206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural architecture search (NAS) for transformers has been used to create
state-of-the-art models that target certain latency constraints. In this work
we present Bigger&Faster, a novel quantization-aware parameter sharing NAS that
finds architectures for 8-bit integer (int8) quantized transformers. Our
results show that our method is able to produce BERT models that outperform the
current state-of-the-art technique, AutoTinyBERT, at all latency targets we
tested, achieving up to a 2.68% accuracy gain. Additionally, although the
models found by our technique have a larger number of parameters than their
float32 counterparts, due to their parameters being int8, they have
significantly smaller memory footprints.
- Abstract(参考訳): トランスのためのニューラルアーキテクチャサーチ(NAS)は、特定のレイテンシ制約をターゲットとした最先端モデルの作成に使用されている。
本研究では,8ビット整数(int8)量子化変換器のアーキテクチャを見出す新しい量子化パラメータ共有NASであるBigger&Fasterを紹介する。
その結果,現在の最先端技術であるautotinybertに匹敵するbertモデルを生成することが可能となり,最大2.68%の精度向上を達成できた。
さらに,本手法で得られたモデルはfloat32のパラメータよりも多くのパラメータを持つが,パラメータが int8 であるため,メモリフットプリントが著しく小さい。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - QIANets: Quantum-Integrated Adaptive Networks for Reduced Latency and Improved Inference Times in CNN Models [2.6663666678221376]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンタスクにおいて大きな進歩を遂げているが、その高い推論時間とレイテンシは現実の応用性を制限している。
従来のGoogLeNet、DenseNet、ResNet-18モデルアーキテクチャを再設計する新しいアプローチであるQIANetを紹介します。
実験の限界にもかかわらず, 提案手法を検証, 評価し, 推論時間の短縮を実証し, 有効精度の保存を行った。
論文 参考訳(メタデータ) (2024-10-14T09:24:48Z) - PNAS-MOT: Multi-Modal Object Tracking with Pareto Neural Architecture Search [64.28335667655129]
複数の物体追跡は、自律運転において重要な課題である。
トラッキングの精度が向上するにつれて、ニューラルネットワークはますます複雑になり、レイテンシが高いため、実際の運転シナリオにおける実践的な応用に課題が生じる。
本稿では,ニューラル・アーキテクチャ・サーチ(NAS)手法を用いて追跡のための効率的なアーキテクチャを探索し,比較的高い精度を維持しつつ,低リアルタイム遅延を実現することを目的とした。
論文 参考訳(メタデータ) (2024-03-23T04:18:49Z) - DOCTOR: Dynamic On-Chip Temporal Variation Remediation Toward Self-Corrected Photonic Tensor Accelerators [5.873308516576125]
フォトニックテンソル加速器は、非平行な速度とエネルギー効率を提供する。
光学的ニューラル加速器の変動耐性を高めるために、オフチップノイズ認識トレーニングとオンチップトレーニングが提案されている。
DOCTORと呼ばれる軽量な動的オンチップ・フレームワークを提案し、時間的ドリフトノイズに対して適応的かつその場での精度回復を実現する。
論文 参考訳(メタデータ) (2024-03-05T06:17:13Z) - Accelerating Deep Neural Networks via Semi-Structured Activation
Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。
そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。
当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T22:28:53Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - FreeREA: Training-Free Evolution-based Architecture Search [17.202375422110553]
FreeREAは、トレーニングなしメトリクスの最適化組み合わせを利用してアーキテクチャをランク付けする、独自のセルベースの進化NASアルゴリズムである。
本実験はNAS-Bench-101とNATS-Benchの共通ベンチマークを用いて,フリーレアがモデル自動設計のための高速で効率的かつ効果的な探索手法であることを実証した。
論文 参考訳(メタデータ) (2022-06-17T11:16:28Z) - Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文 参考訳(メタデータ) (2021-09-01T03:41:31Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。