Fugu-MT 論文翻訳(概要): Bigger&Faster: Two-stage Neural Architecture Search for Quantized Transformer Models

論文の概要: Bigger&Faster: Two-stage Neural Architecture Search for Quantized Transformer Models

arxiv url: http://arxiv.org/abs/2209.12127v1
Date: Sun, 25 Sep 2022 02:56:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-27 16:49:59.982716
Title: Bigger&Faster: Two-stage Neural Architecture Search for Quantized Transformer Models
Title（参考訳）: Bigger&Faster:量子トランスモデルの2段階ニューラルネットワーク探索
Authors: Yuji Chai, Luke Bailey, Yunho Jin, Matthew Karle, Glenn G. Ko
Abstract要約: 本稿では、新しい量子化対応パラメータ共有NASであるBigger&Fasterを紹介する。提案手法は,現在の最先端技術であるAutoTinyBERTよりも優れたBERTモデルを生成することができる。本手法で得られたモデルはfloat32のパラメータよりも多くのパラメータを持つが,パラメータがint8であるため,メモリフットプリントが大幅に小さい。
参考スコア（独自算出の注目度）: 0.41998444721319206
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural architecture search (NAS) for transformers has been used to create state-of-the-art models that target certain latency constraints. In this work we present Bigger&Faster, a novel quantization-aware parameter sharing NAS that finds architectures for 8-bit integer (int8) quantized transformers. Our results show that our method is able to produce BERT models that outperform the current state-of-the-art technique, AutoTinyBERT, at all latency targets we tested, achieving up to a 2.68% accuracy gain. Additionally, although the models found by our technique have a larger number of parameters than their float32 counterparts, due to their parameters being int8, they have significantly smaller memory footprints.
Abstract（参考訳）: トランスのためのニューラルアーキテクチャサーチ(NAS)は、特定のレイテンシ制約をターゲットとした最先端モデルの作成に使用されている。本研究では,8ビット整数(int8)量子化変換器のアーキテクチャを見出す新しい量子化パラメータ共有NASであるBigger&Fasterを紹介する。その結果,現在の最先端技術であるautotinybertに匹敵するbertモデルを生成することが可能となり,最大2.68%の精度向上を達成できた。さらに,本手法で得られたモデルはfloat32のパラメータよりも多くのパラメータを持つが,パラメータが int8 であるため,メモリフットプリントが著しく小さい。

関連論文リスト

Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文参考訳（メタデータ） (2025-02-03T13:09:21Z)
Preventing Local Pitfalls in Vector Quantization via Optimal Transport [77.15924044466976]
我々はシンクホーンアルゴリズムを用いて最適な輸送問題を最適化する新しいベクトル量子化法であるOptVQを紹介する。画像再構成タスクの実験では,OptVQが100%のコードブック利用を実現し,現在最先端のVQNを超越していることが示された。
論文参考訳（メタデータ） (2024-12-19T18:58:14Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
QIANets: Quantum-Integrated Adaptive Networks for Reduced Latency and Improved Inference Times in CNN Models [2.6663666678221376]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンタスクにおいて大きな進歩を遂げているが、その高い推論時間とレイテンシは現実の応用性を制限している。従来のGoogLeNet、DenseNet、ResNet-18モデルアーキテクチャを再設計する新しいアプローチであるQIANetを紹介します。実験の限界にもかかわらず, 提案手法を検証, 評価し, 推論時間の短縮を実証し, 有効精度の保存を行った。
論文参考訳（メタデータ） (2024-10-14T09:24:48Z)
PNAS-MOT: Multi-Modal Object Tracking with Pareto Neural Architecture Search [64.28335667655129]
複数の物体追跡は、自律運転において重要な課題である。トラッキングの精度が向上するにつれて、ニューラルネットワークはますます複雑になり、レイテンシが高いため、実際の運転シナリオにおける実践的な応用に課題が生じる。本稿では,ニューラル・アーキテクチャ・サーチ(NAS)手法を用いて追跡のための効率的なアーキテクチャを探索し,比較的高い精度を維持しつつ,低リアルタイム遅延を実現することを目的とした。
論文参考訳（メタデータ） (2024-03-23T04:18:49Z)
DOCTOR: Dynamic On-Chip Temporal Variation Remediation Toward Self-Corrected Photonic Tensor Accelerators [5.873308516576125]
フォトニックテンソル加速器は、非平行な速度とエネルギー効率を提供する。光学的ニューラル加速器の変動耐性を高めるために、オフチップノイズ認識トレーニングとオンチップトレーニングが提案されている。 DOCTORと呼ばれる軽量な動的オンチップ・フレームワークを提案し、時間的ドリフトノイズに対して適応的かつその場での精度回復を実現する。
論文参考訳（メタデータ） (2024-03-05T06:17:13Z)
QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文参考訳（メタデータ） (2024-02-06T03:39:44Z)
Accelerating Deep Neural Networks via Semi-Structured Activation Sparsity [0.0]
ネットワークの機能マップにスパシティを爆発させることは、推論のレイテンシを低減する方法の1つです。そこで本研究では,セミ構造化されたアクティベーション空間を小さなランタイム修正によって活用する手法を提案する。当社のアプローチでは,ImageNetデータセット上のResNet18モデルに対して,最小精度が1.1%の1.25倍の速度向上を実現している。
論文参考訳（メタデータ） (2023-09-12T22:28:53Z)
Towards Long-Term Time-Series Forecasting: Feature, Pattern, and Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。 LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文参考訳（メタデータ） (2023-01-05T13:59:29Z)
Neural Networks with Quantization Constraints [111.42313650830248]
量子化学習における制約付き学習手法を提案する。結果の問題は強い双対であり、勾配推定は不要であることを示す。提案手法は画像分類タスクにおける競合性能を示す。
論文参考訳（メタデータ） (2022-10-27T17:12:48Z)
FreeREA: Training-Free Evolution-based Architecture Search [17.202375422110553]
FreeREAは、トレーニングなしメトリクスの最適化組み合わせを利用してアーキテクチャをランク付けする、独自のセルベースの進化NASアルゴリズムである。本実験はNAS-Bench-101とNATS-Benchの共通ベンチマークを用いて,フリーレアがモデル自動設計のための高速で効率的かつ効果的な探索手法であることを実証した。
論文参考訳（メタデータ） (2022-06-17T11:16:28Z)
Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文参考訳（メタデータ） (2021-09-01T03:41:31Z)
Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for Hyperparameter Recommendation [83.85021205445662]
本稿では,機械学習モデルのチューニングを高速化する自動チューニング(AT2)を提案する。マルチタスクマルチ忠実ベイズ最適化フレームワークの徹底的な解析を行い、最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。
論文参考訳（メタデータ） (2021-06-17T00:01:18Z)
Ps and Qs: Quantization-aware pruning for efficient low latency neural network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文参考訳（メタデータ） (2021-02-22T19:00:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。