論文の概要: SoftNeuro: Fast Deep Inference using Multi-platform Optimization
- arxiv url: http://arxiv.org/abs/2110.06037v1
- Date: Tue, 12 Oct 2021 14:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 18:45:35.013294
- Title: SoftNeuro: Fast Deep Inference using Multi-platform Optimization
- Title(参考訳): SoftNeuro: マルチプラットフォーム最適化を用いた高速深層推論
- Authors: Masaki Hilaga, Yasuhiro Kuroda, Hitoshi Matsuo, Tatsuya Kawaguchi,
Gabriel Ogawa, Hiroshi Miyake and Yusuke Kozawa
- Abstract要約: SoftNeuroは、効率的なパフォーマンスチューニングを備えた、新しい高性能な推論フレームワークである。
本フレームワークは,各レイヤの各種ルーチンをプロファイリングし,最速経路を選択することにより,推論性能を最大化する。
実験の結果,提案するフレームワークは高速な推論と効率的なチューニングを実現することがわかった。
- 参考スコア(独自算出の注目度): 0.18472148461613155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Faster inference of deep learning models is highly demanded on edge devices
and even servers, for both financial and environmental reasons. To address this
issue, we propose SoftNeuro, a novel, high-performance inference framework with
efficient performance tuning. The key idea is to separate algorithmic routines
from network layers. Our framework maximizes the inference performance by
profiling various routines for each layer and selecting the fastest path. To
efficiently find the best path, we propose a routine-selection algorithm based
on dynamic programming. Experiments show that the proposed framework achieves
both fast inference and efficient tuning.
- Abstract(参考訳): ディープラーニングモデルのより高速な推論は、金融と環境の両方の理由から、エッジデバイスやサーバにも非常に要求される。
この問題に対処するために,効率的なパフォーマンスチューニングを行う新しい高性能推論フレームワークであるSoftNeuroを提案する。
鍵となるアイデアは、ネットワーク層からアルゴリズムルーチンを分離することだ。
本フレームワークは,各レイヤの各種ルーチンをプロファイリングし,最速経路を選択することにより,推論性能を最大化する。
最適な経路を効率よく見つけるために,動的プログラミングに基づくルーチン選択アルゴリズムを提案する。
実験の結果,提案するフレームワークは高速な推論と効率的なチューニングを実現することがわかった。
関連論文リスト
- Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Fast and Scalable Network Slicing by Integrating Deep Learning with
Lagrangian Methods [8.72339110741777]
ネットワークスライシングは、多種多様なサービスを効率的にサポートするために、5G以上の重要なテクニックである。
ディープラーニングモデルは、動的スライシング構成に対する限定的な一般化と適応性に悩まされる。
本稿では,制約付き最適化手法とディープラーニングモデルを統合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-22T07:19:16Z) - Let the Flows Tell: Solving Graph Combinatorial Optimization Problems
with GFlowNets [86.43523688236077]
組合せ最適化(CO)問題はしばしばNPハードであり、正確なアルゴリズムには及ばない。
GFlowNetsは、複合非正規化密度を逐次サンプリングする強力な機械として登場した。
本稿では,異なる問題に対してマルコフ決定プロセス(MDP)を設計し,条件付きGFlowNetを学習して解空間からサンプルを作成することを提案する。
論文 参考訳(メタデータ) (2023-05-26T15:13:09Z) - Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic
Programming [15.458305667190256]
本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。
ImageNetのMobileNetV2-1.0では、0.11%の精度で1.41タイムのスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-01-28T13:08:54Z) - Approaching Globally Optimal Energy Efficiency in Interference Networks
via Machine Learning [22.926877147296594]
本研究は,マルチセル無線ネットワークにおけるエネルギー効率(EE)を最適化する機械学習手法を提案する。
その結果,この手法は分岐計算テストにより最適値に近いEEを達成できることが判明した。
論文 参考訳(メタデータ) (2022-11-25T08:36:34Z) - Pruning-as-Search: Efficient Neural Architecture Search via Channel
Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。
提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文 参考訳(メタデータ) (2022-06-02T17:58:54Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware
Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。
WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。
最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文 参考訳(メタデータ) (2020-08-11T07:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。