Fugu-MT 論文翻訳(概要): SoftNeuro: Fast Deep Inference using Multi-platform Optimization

論文の概要: SoftNeuro: Fast Deep Inference using Multi-platform Optimization

arxiv url: http://arxiv.org/abs/2110.06037v1
Date: Tue, 12 Oct 2021 14:31:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-13 18:45:35.013294
Title: SoftNeuro: Fast Deep Inference using Multi-platform Optimization
Title（参考訳）: SoftNeuro: マルチプラットフォーム最適化を用いた高速深層推論
Authors: Masaki Hilaga, Yasuhiro Kuroda, Hitoshi Matsuo, Tatsuya Kawaguchi, Gabriel Ogawa, Hiroshi Miyake and Yusuke Kozawa
Abstract要約: SoftNeuroは、効率的なパフォーマンスチューニングを備えた、新しい高性能な推論フレームワークである。本フレームワークは,各レイヤの各種ルーチンをプロファイリングし,最速経路を選択することにより,推論性能を最大化する。実験の結果,提案するフレームワークは高速な推論と効率的なチューニングを実現することがわかった。
参考スコア（独自算出の注目度）: 0.18472148461613155
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Faster inference of deep learning models is highly demanded on edge devices and even servers, for both financial and environmental reasons. To address this issue, we propose SoftNeuro, a novel, high-performance inference framework with efficient performance tuning. The key idea is to separate algorithmic routines from network layers. Our framework maximizes the inference performance by profiling various routines for each layer and selecting the fastest path. To efficiently find the best path, we propose a routine-selection algorithm based on dynamic programming. Experiments show that the proposed framework achieves both fast inference and efficient tuning.
Abstract（参考訳）: ディープラーニングモデルのより高速な推論は、金融と環境の両方の理由から、エッジデバイスやサーバにも非常に要求される。この問題に対処するために,効率的なパフォーマンスチューニングを行う新しい高性能推論フレームワークであるSoftNeuroを提案する。鍵となるアイデアは、ネットワーク層からアルゴリズムルーチンを分離することだ。本フレームワークは,各レイヤの各種ルーチンをプロファイリングし,最速経路を選択することにより,推論性能を最大化する。最適な経路を効率よく見つけるために,動的プログラミングに基づくルーチン選択アルゴリズムを提案する。実験の結果,提案するフレームワークは高速な推論と効率的なチューニングを実現することがわかった。

関連論文リスト

Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
Greedy Restart Schedules: A Baseline for Dynamic Algorithm Selection on Numerical Black-box Optimization Problems [0.0]
本稿では,選択時の未解決学習問題の分布に最善を尽くすアルゴリズムを反復的に選択するスケジューリング手法を提案する。我々は,BBOBテストベッド上での数値ブラックボックス最適化からよく知られた手法を実演し,従来のポートフォリオから様々な評価プロトコルにまたがって,単一と仮想のベストソルバのギャップの多くを埋める方法を示した。
論文参考訳（メタデータ） (2025-04-15T17:54:21Z)
Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。 WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文参考訳（メタデータ） (2024-10-28T04:47:39Z)
Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文参考訳（メタデータ） (2024-05-07T17:44:54Z)
Fast and Scalable Network Slicing by Integrating Deep Learning with Lagrangian Methods [8.72339110741777]
ネットワークスライシングは、多種多様なサービスを効率的にサポートするために、5G以上の重要なテクニックである。ディープラーニングモデルは、動的スライシング構成に対する限定的な一般化と適応性に悩まされる。本稿では,制約付き最適化手法とディープラーニングモデルを統合する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-22T07:19:16Z)
Let the Flows Tell: Solving Graph Combinatorial Optimization Problems with GFlowNets [86.43523688236077]
組合せ最適化(CO)問題はしばしばNPハードであり、正確なアルゴリズムには及ばない。 GFlowNetsは、複合非正規化密度を逐次サンプリングする強力な機械として登場した。本稿では,異なる問題に対してマルコフ決定プロセス(MDP)を設計し,条件付きGFlowNetを学習して解空間からサンプルを作成することを提案する。
論文参考訳（メタデータ） (2023-05-26T15:13:09Z)
Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic Programming [15.458305667190256]
本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。 ImageNetのMobileNetV2-1.0では、0.11%の精度で1.41タイムのスピードアップを実現しています。
論文参考訳（メタデータ） (2023-01-28T13:08:54Z)
Approaching Globally Optimal Energy Efficiency in Interference Networks via Machine Learning [22.926877147296594]
本研究は,マルチセル無線ネットワークにおけるエネルギー効率(EE)を最適化する機械学習手法を提案する。その結果,この手法は分岐計算テストにより最適値に近いEEを達成できることが判明した。
論文参考訳（メタデータ） (2022-11-25T08:36:34Z)
Pruning-as-Search: Efficient Neural Architecture Search via Channel Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文参考訳（メタデータ） (2022-06-02T17:58:54Z)
Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。この2つの設定の間には自然なシナジーがあることが示されています。この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文参考訳（メタデータ） (2021-11-25T19:59:33Z)
Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-22T23:53:14Z)
Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。 WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文参考訳（メタデータ） (2020-08-11T07:50:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。