論文の概要: Hardware-Aware Reformulation of Convolutions for Efficient Execution on Specialized AI Hardware: A Case Study on NVIDIA Tensor Cores
- arxiv url: http://arxiv.org/abs/2601.11608v1
- Date: Fri, 09 Jan 2026 02:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.785481
- Title: Hardware-Aware Reformulation of Convolutions for Efficient Execution on Specialized AI Hardware: A Case Study on NVIDIA Tensor Cores
- Title(参考訳): ハードウェア・アウェアによるAIハードウェアの効率的な実行のための畳み込みの再構成:NVIDIAテンソルコアのケーススタディ
- Authors: Ganesh Bikshandi,
- Abstract要約: 例えばNVIDIA Coresは、効率的な実行のために入力チャネルを8と512の倍数にする必要がある。
従来のアプローチでは、ゼロパディングを使ってアライメントの問題に対処するが、これは非効率である。
書き直し規則を用いたCNN計算のハードウェア対応化について述べる。
- 参考スコア(独自算出の注目度): 0.6138671548064355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks (CNNs) are central to modern AI, but their performance is often limited by hardware constraints. NVIDIA Tensor Cores, for instance, require input channels to be multiples of 8 and sometimes 512 for efficient execution. {\em oneDNN} framework for CPU imposes such a requirement for the blocked format. Traditional approaches address such alignment issue using zero-padding, which can be inefficient. In this work, we present a first-step, hardware-aware reformulation of CNN computations using rewrite rules, restructuring the underlying math to satisfy hardware alignment entirely {\bf post-training} without modifying network weights. While our current implementation focuses on a single transformation for Tensor Cores, this approach is generalizable, laying the foundation to explore additional transformations for CPU and accelerators. This study represents an initial step toward {\em semantic tuning}, a systematic, hardware-aware optimization strategy for efficient deployment of CNN models on specialized AI hardware.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は現代のAIの中心であるが、ハードウェアの制約によって性能が制限されることが多い。
例えばNVIDIA Tensor Coresでは,効率的な実行には入力チャネルを8倍,時には512倍の倍数にする必要がある。
CPU 用 {\displaystyle 1DNN} フレームワークは、ブロックされたフォーマットにそのような要件を課している。
従来のアプローチでは、ゼロパディングを使ってアライメントの問題に対処するが、これは非効率である。
本研究では,ネットワーク重みを変更せずにハードウェアアライメントを完全に満たすために,CNN計算の書き直し規則を用いてハードウェアに配慮した第1ステップの再構成を行う。
現在の実装では、Tensor Coresの単一変換に重点を置いていますが、このアプローチは一般化可能であり、CPUやアクセラレータのさらなる変換を探求するための基盤となります。
この研究は、CNNモデルを専門のAIハードウェアに効率的に展開するための、ハードウェアを意識したシステマティックな最適化戦略である「セマンティックチューニング」への最初のステップを示す。
関連論文リスト
- FlashRNN: I/O-Aware Optimization of Traditional RNNs on modern hardware [6.749483762719583]
状態追跡機能は、時系列タスクと論理的推論にとって重要である。
LSTMやGRUのような従来のRNNは、厳密にシーケンシャルな処理を犠牲にしてこれらの機能を備えている。
我々は、Tritonのハードウェア最適化FlashRNNと、レジスタレベルに最適化されたカーネルで、これらのネットワークがどれだけ高速になるかを示す。
論文 参考訳(メタデータ) (2024-12-10T18:50:37Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - AEGNN: Asynchronous Event-based Graph Neural Networks [54.528926463775946]
イベントベースのグラフニューラルネットワークは、標準のGNNを一般化して、イベントを"進化的"時間グラフとして処理する。
AEGNNは同期入力で容易に訓練でき、テスト時に効率的な「非同期」ネットワークに変換できる。
論文 参考訳(メタデータ) (2022-03-31T16:21:12Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Content-Aware Convolutional Neural Networks [98.97634685964819]
畳み込みニューラルネットワーク(CNN)は、畳み込み層の強力な特徴学習能力によって大きな成功を収めている。
本研究では,スムーズなウィンドウを自動的に検出し,元の大規模カーネルを置き換えるために1x1畳み込みカーネルを適用するContent-aware Convolution (CAC)を提案する。
論文 参考訳(メタデータ) (2021-06-30T03:54:35Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - cuConv: A CUDA Implementation of Convolution for CNN Inference [0.0]
Convolutionsは、Convolutional Neural Networks(CNN)に基づくディープラーニングアプリケーションのコアオペレーションである。
本論文では,事前データ変換を必要とせずに,結合アクセスを好むCNN推論のための畳み込み操作のGPUベースの実装を提案する。
実験により,提案手法はCNN前方伝播畳み込み構成において顕著な性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-30T10:33:53Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Efficient Computation Reduction in Bayesian Neural Networks Through
Feature Decomposition and Memorization [10.182119276564643]
本稿では,計算コストを削減するため,効率的なBNN推論フローを提案する。
計算の約半分は従来の手法と比べて取り除くことができる。
We implement our approach in Verilog and synthesise it with 45 $nm$ FreePDK technology。
論文 参考訳(メタデータ) (2020-05-08T05:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。