論文の概要: Vector-Vector-Matrix Architecture: A Novel Hardware-Aware Framework for
Low-Latency Inference in NLP Applications
- arxiv url: http://arxiv.org/abs/2010.08412v1
- Date: Tue, 6 Oct 2020 16:54:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 07:41:33.080889
- Title: Vector-Vector-Matrix Architecture: A Novel Hardware-Aware Framework for
Low-Latency Inference in NLP Applications
- Title(参考訳): ベクトルベクトル行列アーキテクチャ:NLPアプリケーションにおける低遅延推論のための新しいハードウェア対応フレームワーク
- Authors: Matthew Khoury and Rumen Dangovski and Longwu Ou and Preslav Nakov and
Yichen Shen and Li Jing
- Abstract要約: ディープニューラルネットワークは、信頼できる自然言語処理(NLP)アプリケーションを構築するための標準アプローチとなっている。
NMTの推論時間において遅延を大幅に低減するベクトルベクトル行列アーキテクチャ(VVMA)を提案する。
提案手法は,NMTで使用するシーケンス・ツー・シーケンスモデルとトランスフォーマーモデルのレイテンシを4倍に削減できることを示す。
- 参考スコア(独自算出の注目度): 23.37992621844846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks have become the standard approach to building reliable
Natural Language Processing (NLP) applications, ranging from Neural Machine
Translation (NMT) to dialogue systems. However, improving accuracy by
increasing the model size requires a large number of hardware computations,
which can slow down NLP applications significantly at inference time. To
address this issue, we propose a novel vector-vector-matrix architecture
(VVMA), which greatly reduces the latency at inference time for NMT. This
architecture takes advantage of specialized hardware that has low-latency
vector-vector operations and higher-latency vector-matrix operations. It also
reduces the number of parameters and FLOPs for virtually all models that rely
on efficient matrix multipliers without significantly impacting accuracy. We
present empirical results suggesting that our framework can reduce the latency
of sequence-to-sequence and Transformer models used for NMT by a factor of
four. Finally, we show evidence suggesting that our VVMA extends to other
domains, and we discuss novel hardware for its efficient use.
- Abstract(参考訳): ディープニューラルネットワークは、ニューラルネットワーク翻訳(NMT)から対話システムまで、信頼できる自然言語処理(NLP)アプリケーションを構築するための標準アプローチとなっている。
しかし、モデルサイズを大きくすることで精度を向上させるには、大量のハードウェア計算が必要であるため、推論時にNLPアプリケーションを著しく遅くすることができる。
この問題に対処するため,NMTにおける推定時間の遅延を大幅に低減するベクトルベクトル行列アーキテクチャ(VVMA)を提案する。
このアーキテクチャは、低遅延ベクトルベクトル演算と高遅延ベクトル行列演算を持つ特殊なハードウェアを利用する。
また、効率の良い行列乗算器に依存する事実上全てのモデルのパラメータとフロップ数を削減し、精度に大きな影響を与えない。
本研究では,NMTのシーケンス・ツー・シーケンスモデルとトランスフォーマーモデルのレイテンシを4倍に削減できることを示す実験結果を示す。
最後に、VVMAが他のドメインに拡張されていることを示す証拠を示し、その効率的な使用のための新しいハードウェアについて論じる。
関連論文リスト
- Few-Shot Testing: Estimating Uncertainty of Memristive Deep Neural Networks Using One Bayesian Test Vector [0.0]
我々は,memristorベースのCIMハードウェア上に実装されたNNのモデル不確かさを推定できるテストベクトル生成フレームワークを提案する。
提案手法は, 異なるモデル次元, タスク, 故障率, 変動ノイズに基づいて評価し, メモリオーバーヘッドを0.024ドルに抑えながら, 100%のカバレッジを連続的に達成可能であることを示す。
論文 参考訳(メタデータ) (2024-05-29T08:53:16Z) - Use Your INSTINCT: INSTruction optimization for LLMs usIng Neural bandits Coupled with Transformers [66.823588073584]
大規模言語モデル (LLM) は命令追従能力に優れ、様々なアプリケーションで優れた性能を発揮している。
最近の研究は、ブラックボックスLLMに与えられる命令を自動的に最適化するために、クエリ効率のよいベイズ最適化(BO)アルゴリズムを用いている。
NNサロゲートによりBOのGPを置換し,ブラックボックスLLMの命令を最適化するニューラルバンディットアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-02T02:01:16Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - MemSE: Fast MSE Prediction for Noisy Memristor-Based DNN Accelerators [5.553959304125023]
我々は,行列ベクトル乗算(MVM)を計算するためにmemristorを用いたDNNの平均二乗誤差を理論的に解析する。
DNNモデルのサイズを小さくする必要性から量子化ノイズと、中間値のプログラミングにおける可変性から生じるプログラミングノイズの両方を考慮に入れている。
提案手法はモンテカルロシミュレーションよりも約2桁高速であり, 与えられた電力制約に対して最小限の誤差を達成するために, 実装パラメータを最適化することができる。
論文 参考訳(メタデータ) (2022-05-03T18:10:43Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - NN-LUT: Neural Approximation of Non-Linear Operations for Efficient
Transformer Inference [9.329021390526124]
GELU、Layer normalization、Softmaxといった非線形演算は、トランスフォーマーモデルのブロックの構築には不可欠だがコストがかかる。
本稿では,効率的なトランスフォーマー推論のためのハードウェアフレンドリな近似フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-03T23:06:57Z) - NullaNet Tiny: Ultra-low-latency DNN Inference Through Fixed-function
Combinational Logic [4.119948826527649]
フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータは、グラフィックス処理ユニット/中央処理ユニットベースのプラットフォームを置き換える深刻な競争相手として注目を集めています。
本稿では,資源とエネルギー効率,超低遅延FPGAベースニューラルネットワークアクセラレータ構築のためのフレームワークであるNullaNet Tinyを提案する。
論文 参考訳(メタデータ) (2021-04-07T00:16:39Z) - Joint Deep Reinforcement Learning and Unfolding: Beam Selection and
Precoding for mmWave Multiuser MIMO with Lens Arrays [54.43962058166702]
離散レンズアレイを用いたミリ波マルチユーザマルチインプット多重出力(MU-MIMO)システムに注目が集まっている。
本研究では、DLA を用いた mmWave MU-MIMO システムのビームプリコーディング行列の共同設計について検討する。
論文 参考訳(メタデータ) (2021-01-05T03:55:04Z) - A Learning Framework for n-bit Quantized Neural Networks toward FPGAs [20.83904734716565]
重みが2つのパワーに制約されるnビットQNNのための新しい学習フレームワークを提案する。
また,n-BQ-NNという新しいQNN構造も提案する。
SVPEを用いたN-BQ-NNは,ベクトル処理素子(VPE)よりも2.9倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2020-04-06T04:21:24Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。