Fugu-MT 論文翻訳(概要): The Framework Tax: Disparities Between Inference Efficiency in Research and Deployment

論文の概要: The Framework Tax: Disparities Between Inference Efficiency in Research and Deployment

arxiv url: http://arxiv.org/abs/2302.06117v1
Date: Mon, 13 Feb 2023 05:52:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 16:34:45.549688
Title: The Framework Tax: Disparities Between Inference Efficiency in Research and Deployment
Title（参考訳）: フレームワーク税:研究と展開における推論効率の差
Authors: Jared Fernandez, Jacob Kahn, Clara Na, Yonatan Bisk, Emma Strubell
Abstract要約: 機械学習システムのデプロイへの注目が高まり、ハードウェアアクセラレーションのパフォーマンスとニューラルネットワークモデルの効率が急速に向上した。しかし、浮動小数点演算の削減と計算スループットの増大は、実際の推論遅延の改善に直接変換されない。これらの相違は、モデルアーキテクチャと基盤となるハードウェアの能力の相違によることが多いことを実証する。
参考スコア（独自算出の注目度）: 21.70655880144707
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Increased focus on the deployment of machine learning systems has led to rapid improvements in hardware accelerator performance and neural network model efficiency. However, the resulting reductions in floating point operations and increases in computational throughput of accelerators have not directly translated to improvements in real-world inference latency. We demonstrate that these discrepancies can be largely attributed to mis-alignments between model architectures and the capabilities of underlying hardware due to bottlenecks introduced by deep learning frameworks. We denote this phenomena as the \textit{framework tax}, and observe that the disparity is growing as hardware speed increases over time. In this work, we examine this phenomena through a series of case studies analyzing the effects of model design decisions, framework paradigms, and hardware platforms on total model latency. Based on our findings, we provide actionable recommendations to ML researchers and practitioners aimed at narrowing the gap between efficient ML model research and practice.
Abstract（参考訳）: 機械学習システムのデプロイへの注目が高まり、ハードウェアアクセラレーションのパフォーマンスとニューラルネットワークモデルの効率が急速に向上した。しかし、結果として浮動小数点演算の削減と加速器の計算スループットの増大は、現実世界の推論遅延の改善に直接は変換されていない。これらの相違は、ディープラーニングフレームワークが導入したボトルネックにより、モデルアーキテクチャと基盤となるハードウェアの能力の相違に起因することが証明されている。我々は、この現象を \textit{framework tax} と表現し、ハードウェアの速度が時間とともに増加するにつれて差が大きくなることを観察する。本研究では,モデル設計決定,フレームワークパラダイム,ハードウェアプラットフォームがモデル全体のレイテンシに与える影響を分析する一連のケーススタディを通じて,この現象を考察する。本研究は,効率的なMLモデル研究と実践のギャップを狭めることを目的とした,ML研究者と実践者に対して,実用的なレコメンデーションを提供する。

関連論文リスト

iFlame: Interleaving Full and Linear Attention for Efficient Mesh Generation [49.8026360054331]
iFlameはメッシュ生成のためのトランスフォーマーベースの新しいネットワークアーキテクチャである。本稿では,線形アテンションの効率とフルアテンション機構の表現力を組み合わせたインターリービング自己回帰メッシュ生成フレームワークを提案する。提案するインターリービングフレームワークは,計算効率と生成性能を効果的にバランスさせることが示唆された。
論文参考訳（メタデータ） (2025-03-20T19:10:37Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。 textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文参考訳（メタデータ） (2024-10-16T08:07:18Z)
Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文参考訳（メタデータ） (2024-08-04T13:23:18Z)
The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文参考訳（メタデータ） (2023-10-31T00:12:14Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文参考訳（メタデータ） (2023-06-14T01:24:42Z)
Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文参考訳（メタデータ） (2022-12-29T15:10:59Z)
Latency-aware Spatial-wise Dynamic Networks [33.88843632160247]
深層ネットワークのための遅延認識型空間的動的ネットワーク(LASNet)を提案する。 LASNetは、新しい遅延予測モデルのガイダンスに基づき、粗粒度空間適応推論を行う。画像分類,オブジェクト検出,インスタンスセグメンテーションの実験により,提案手法はディープネットワークの実用的な推論効率を大幅に向上させることを示した。
論文参考訳（メタデータ） (2022-10-12T14:09:27Z)
Model-Architecture Co-Design for High Performance Temporal GNN Inference on FPGA [5.575293536755127]
実世界のアプリケーションは、リアルタイムストリーミング動的グラフに対して高いパフォーマンスの推論を必要とする。本稿では,FPGA上でのメモリベースTGNNの推論のための新しいモデルアーキテクチャ共設計を提案する。我々は、知識蒸留を用いて単純化されたモデルを訓練し、元のモデルと同じような精度でビザビザビザビザを保証します。
論文参考訳（メタデータ） (2022-03-10T00:24:47Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。