論文の概要: Running Neural Networks on the NIC
- arxiv url: http://arxiv.org/abs/2009.02353v1
- Date: Fri, 4 Sep 2020 18:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 02:17:58.645247
- Title: Running Neural Networks on the NIC
- Title(参考訳): NIC上でニューラルネットワークを実行する
- Authors: Giuseppe Siracusano, Salvator Galea, Davide Sanvito, Mohammad
Malekzadeh, Hamed Haddadi, Gianni Antichi, Roberto Bifulco
- Abstract要約: 我々は、コモディティプログラマブルNICが低オーバーヘッドでニューラルネットワーク推論タスクを実行できることを示す。
N3ICは処理のレイテンシを100倍にし、スループットは1.5倍向上する。
- 参考スコア(独自算出の注目度): 7.645750193878735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we show that the data plane of commodity programmable (Network
Interface Cards) NICs can run neural network inference tasks required by packet
monitoring applications, with low overhead. This is particularly important as
the data transfer costs to the host system and dedicated machine learning
accelerators, e.g., GPUs, can be more expensive than the processing task
itself. We design and implement our system -- N3IC -- on two different NICs and
we show that it can greatly benefit three different network monitoring use
cases that require machine learning inference as first-class-primitive. N3IC
can perform inference for millions of network flows per second, while
forwarding traffic at 40Gb/s. Compared to an equivalent solution implemented on
a general purpose CPU, N3IC can provide 100x lower processing latency, with
1.5x increase in throughput.
- Abstract(参考訳): 本稿では,コモディティプログラマブル(ネットワークインタフェースカード)NICのデータプレーンが,パケット監視アプリケーションに必要なニューラルネットワーク推論タスクを,低オーバーヘッドで実行可能であることを示す。
ホストシステムへのデータ転送コストやGPUなどの専用機械学習アクセラレータは、処理タスク自体よりもコストがかかるため、これは特に重要である。
我々は2つの異なるnic上でシステム(n3ic)を設計し実装し、機械学習推論を必要とする3つの異なるネットワーク監視ユースケースを第一級プリミティブとして活用できることを示しました。
N3ICは毎秒数百万のネットワークフローを推論し、40Gb/sで転送する。
汎用cpuに実装された同等のソリューションと比較すると、n3icは処理遅延を100倍削減でき、スループットは1.5倍向上する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Embedded Graph Convolutional Networks for Real-Time Event Data Processing on SoC FPGAs [0.815557531820863]
イベントカメラは、組み込みリアルタイムシステムへの統合に大きな関連性を見出す。
イベント処理システムに必要なスループットとレイテンシを保証する効果的なアプローチの1つは、グラフ畳み込みネットワーク(GCN)の利用である。
我々は,ポイントクラウド処理用に設計されたGCNアーキテクチャであるPointNet++用に最適化された,ハードウェア対応の一連の最適化を紹介した。
論文 参考訳(メタデータ) (2024-06-11T14:47:36Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - FLASH: Fast Neural Architecture Search with Hardware Optimization [7.263481020106725]
ニューラルアーキテクチャサーチ(NAS)は、効率的かつ高性能なディープニューラルネットワーク(DNN)を設計するための有望な手法である
本稿では,実ハードウェアプラットフォーム上でのDNNの精度と性能を協調的に最適化する,非常に高速なNAS手法であるFLASHを提案する。
論文 参考訳(メタデータ) (2021-08-01T23:46:48Z) - Improving the Performance of a NoC-based CNN Accelerator with Gather
Support [6.824747267214373]
ディープラーニング技術は、CNNのための効率的な並列コンピューティングアーキテクチャの必要性を促進する。
CNNのワークロードには1対1のトラフィックと1対1のトラフィックに加えて、多対1のトラフィックが導入されている。
本稿では,メッシュベースのNoCにおいて,複数対1のトラフィックをサポートするために,出力定常シストリックアレイを用いて収集パケットを利用することを提案する。
論文 参考訳(メタデータ) (2021-08-01T23:33:40Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Toward Accurate Platform-Aware Performance Modeling for Deep Neural
Networks [0.17499351967216337]
機械学習に基づくPerfNetV2は、さまざまなGPUアクセラレータ上でのニューラルネットワークのパフォーマンスをモデル化するための、これまでの作業の精度を向上させる。
アプリケーションを利用すると、アプリケーションで使用される畳み込みニューラルネットワークの推論時間とトレーニング時間を予測することができる。
我々のケーススタディでは、PerfNetV2が13.1%のLeNet、AlexNet、VGG16、NVIDIA GTX-1080Tiで平均絶対パーセンテージエラーを発生し、ICBD 2018で発表された以前の研究のエラー率は200%に達する可能性がある。
論文 参考訳(メタデータ) (2020-12-01T01:42:23Z) - LogicNets: Co-Designed Neural Networks and Circuits for
Extreme-Throughput Applications [6.9276012494882835]
本稿では,高効率FPGA実装に直接マップするニューラルネットワークトポロジを設計する新しい手法を提案する。
その結果,低ビット化と疎結合化の両立により,論理深度が小さく,LUTコストが低い高速回路が実現された。
論文 参考訳(メタデータ) (2020-04-06T22:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。