論文の概要: The Framework Tax: Disparities Between Inference Efficiency in NLP
Research and Deployment
- arxiv url: http://arxiv.org/abs/2302.06117v2
- Date: Fri, 22 Dec 2023 17:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 18:52:13.151614
- Title: The Framework Tax: Disparities Between Inference Efficiency in NLP
Research and Deployment
- Title(参考訳): フレームワーク税:NLP研究と展開における推論効率の相違
- Authors: Jared Fernandez, Jacob Kahn, Clara Na, Yonatan Bisk, Emma Strubell
- Abstract要約: NLPシステムの計算効率の向上は、効率的なモデルアーキテクチャの設計を動機付けている。
その結果、計算スループットの向上と浮動小数点演算の削減は、直接ウォールクロックの推論遅延の改善に寄与していない。
我々は、この現象をテキストフレームワーク税として表現し、ハードウェアの速度が時間とともに増加するにつれて、格差が増大していることを観察する。
- 参考スコア(独自算出の注目度): 33.85183388374628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Increased focus on the computational efficiency of NLP systems has motivated
the design of efficient model architectures and improvements to underlying
hardware accelerators. However, the resulting increases in computational
throughput and reductions in floating point operations have not directly
translated to improvements in wall-clock inference latency. We demonstrate that
these discrepancies can be largely attributed to bottlenecks introduced by deep
learning frameworks. We denote this phenomenon as the \textit{framework tax},
and observe that the disparity is growing as hardware speed increases over
time. In this work, we examine this phenomenon through a series of case studies
analyzing the effects of model design decisions, framework paradigms, and
hardware platforms on total model latency. Code is available at
https://github.com/JaredFern/Framework-Tax.
- Abstract(参考訳): NLPシステムの計算効率の向上は、効率的なモデルアーキテクチャの設計と基盤となるハードウェアアクセラレータの改善を動機付けている。
しかし、計算スループットの向上と浮動小数点演算の削減は、直接ウォールクロックの推論遅延の改善に寄与していない。
これらの差異は、ディープラーニングフレームワークがもたらしたボトルネックが大きな原因であることを実証する。
我々は、この現象を \textit{framework tax} と表現し、ハードウェアの速度が時間とともに増加するにつれて差が大きくなることを観察する。
本稿では,モデル設計決定,フレームワークパラダイム,ハードウェアプラットフォームが全体のモデル遅延に与える影響を分析する一連のケーススタディを通して,この現象を考察する。
コードはhttps://github.com/JaredFern/Framework-Tax.comで入手できる。
関連論文リスト
- The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。
それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。
本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文 参考訳(メタデータ) (2023-10-31T00:12:14Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。
この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文 参考訳(メタデータ) (2022-12-29T15:10:59Z) - Latency-aware Spatial-wise Dynamic Networks [33.88843632160247]
深層ネットワークのための遅延認識型空間的動的ネットワーク(LASNet)を提案する。
LASNetは、新しい遅延予測モデルのガイダンスに基づき、粗粒度空間適応推論を行う。
画像分類,オブジェクト検出,インスタンスセグメンテーションの実験により,提案手法はディープネットワークの実用的な推論効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2022-10-12T14:09:27Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - An Efficiency Study for SPLADE Models [5.725475501578801]
本稿では,SPLADEモデルの効率向上に焦点をあてる。
本稿では、クエリのL1正規化、ドキュメント/エンコーダの分離、FLOPS正規化ミドルトレーニング、高速なクエリエンコーダの使用など、いくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T11:42:05Z) - Model-Architecture Co-Design for High Performance Temporal GNN Inference
on FPGA [5.575293536755127]
実世界のアプリケーションは、リアルタイムストリーミング動的グラフに対して高いパフォーマンスの推論を必要とする。
本稿では,FPGA上でのメモリベースTGNNの推論のための新しいモデルアーキテクチャ共設計を提案する。
我々は、知識蒸留を用いて単純化されたモデルを訓練し、元のモデルと同じような精度でビザビザビザビザを保証します。
論文 参考訳(メタデータ) (2022-03-10T00:24:47Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。