論文の概要: SpeedLimit: Neural Architecture Search for Quantized Transformer Models
- arxiv url: http://arxiv.org/abs/2209.12127v3
- Date: Fri, 13 Oct 2023 17:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 18:38:38.877124
- Title: SpeedLimit: Neural Architecture Search for Quantized Transformer Models
- Title(参考訳): speedlimit: 量子化トランスフォーマーモデルのニューラルネットワークによる探索
- Authors: Yuji Chai, Luke Bailey, Yunho Jin, Matthew Karle, Glenn G. Ko, David
Brooks, Gu-Yeon Wei, H. T. Kung
- Abstract要約: 我々は,上界の遅延制約に固執しながら精度を最適化する,新しいニューラルネットワークサーチ(NAS)技術であるSpeedLimitを紹介する。
以上の結果から,性能とレイテンシの最適なバランスを求めるための実現可能性と有効性を明らかにし,レイテンシに敏感な環境に最先端のトランスフォーマーモデルをデプロイするための新たな手段を提供する。
- 参考スコア(独自算出の注目度): 6.491305435530359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While research in the field of transformer models has primarily focused on
enhancing performance metrics such as accuracy and perplexity, practical
applications in industry often necessitate a rigorous consideration of
inference latency constraints. Addressing this challenge, we introduce
SpeedLimit, a novel Neural Architecture Search (NAS) technique that optimizes
accuracy whilst adhering to an upper-bound latency constraint. Our method
incorporates 8-bit integer quantization in the search process to outperform the
current state-of-the-art technique. Our results underline the feasibility and
efficacy of seeking an optimal balance between performance and latency,
providing new avenues for deploying state-of-the-art transformer models in
latency-sensitive environments.
- Abstract(参考訳): トランスフォーマモデルの分野での研究は、主に精度や複雑度などのパフォーマンス指標の向上に重点を置いているが、業界における実用的な応用には、推論レイテンシの制約を厳格に考慮する必要があることが多い。
この課題に対処し,上限レイテンシ制約に固執しながら精度を最適化する新しいニューラルネットワーク探索(nas)手法であるspeedlimitを導入する。
本手法は8ビット整数量子化を検索プロセスに組み込んで,現在の最先端技術に勝る手法である。
以上の結果から,性能とレイテンシの最適なバランスを求めるための実現可能性と有効性について考察した。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - QIANets: Quantum-Integrated Adaptive Networks for Reduced Latency and Improved Inference Times in CNN Models [2.6663666678221376]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンタスクにおいて大きな進歩を遂げているが、その高い推論時間とレイテンシは現実の応用性を制限している。
従来のGoogLeNet、DenseNet、ResNet-18モデルアーキテクチャを再設計する新しいアプローチであるQIANetを紹介します。
実験の限界にもかかわらず, 提案手法を検証, 評価し, 推論時間の短縮を実証し, 有効精度の保存を行った。
論文 参考訳(メタデータ) (2024-10-14T09:24:48Z) - PNAS-MOT: Multi-Modal Object Tracking with Pareto Neural Architecture Search [64.28335667655129]
複数の物体追跡は、自律運転において重要な課題である。
トラッキングの精度が向上するにつれて、ニューラルネットワークはますます複雑になり、レイテンシが高いため、実際の運転シナリオにおける実践的な応用に課題が生じる。
本稿では,ニューラル・アーキテクチャ・サーチ(NAS)手法を用いて追跡のための効率的なアーキテクチャを探索し,比較的高い精度を維持しつつ,低リアルタイム遅延を実現することを目的とした。
論文 参考訳(メタデータ) (2024-03-23T04:18:49Z) - DOCTOR: Dynamic On-Chip Temporal Variation Remediation Toward Self-Corrected Photonic Tensor Accelerators [5.873308516576125]
フォトニックテンソル加速器は、非平行な速度とエネルギー効率を提供する。
光学的ニューラル加速器の変動耐性を高めるために、オフチップノイズ認識トレーニングとオンチップトレーニングが提案されている。
DOCTORと呼ばれる軽量な動的オンチップ・フレームワークを提案し、時間的ドリフトノイズに対して適応的かつその場での精度回復を実現する。
論文 参考訳(メタデータ) (2024-03-05T06:17:13Z) - Accelerating Deep Neural Networks via Semi-Structured Activation
Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。
そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。
当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文 参考訳(メタデータ) (2023-09-12T22:28:53Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。
結果の問題は強い双対であり、勾配推定は不要であることを示す。
提案手法は画像分類タスクにおける競合性能を示す。
論文 参考訳(メタデータ) (2022-10-27T17:12:48Z) - FreeREA: Training-Free Evolution-based Architecture Search [17.202375422110553]
FreeREAは、トレーニングなしメトリクスの最適化組み合わせを利用してアーキテクチャをランク付けする、独自のセルベースの進化NASアルゴリズムである。
本実験はNAS-Bench-101とNATS-Benchの共通ベンチマークを用いて,フリーレアがモデル自動設計のための高速で効率的かつ効果的な探索手法であることを実証した。
論文 参考訳(メタデータ) (2022-06-17T11:16:28Z) - Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文 参考訳(メタデータ) (2021-09-01T03:41:31Z) - Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for
Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。
マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文 参考訳(メタデータ) (2021-06-17T00:01:18Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。