論文の概要: VTC: DNN Compilation with Virtual Tensors for Data Movement Elimination
- arxiv url: http://arxiv.org/abs/2604.09558v1
- Date: Wed, 11 Feb 2026 06:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.494207
- Title: VTC: DNN Compilation with Virtual Tensors for Data Movement Elimination
- Title(参考訳): VTC:データ移動除去のための仮想テンソルを用いたDNNコンパイル
- Authors: Muyan Hu, Ahan Gupta, Jiachen Yuan, Vima Gupta, Taeksang Kim, Xin Xu, Janardhan Kulkarni, Ofer Dekel, Vikram Adve, Charith Mendis,
- Abstract要約: 不要なデータ移動をすべて排除した新しいテンソルコンパイルフレームワークであるVTCを紹介する。
VTCはNVIDIA GPUの既存のMLコンパイラを最大1.93倍(平均1.28倍)上回っており、推論メモリの節約率は60%(17.5%)である。
- 参考スコア(独自算出の注目度): 12.053184232713102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the widening gap between compute and memory operation latencies, data movement optimizations have become increasingly important for DNN compilation. Current optimizations such as layout transformations and operator fusion only target a subset of tensor operators and consequently miss important opportunities for reducing data movement in contemporary DNN workloads, including large language models. We introduce VTC, a novel tensor compilation framework that for the first time eliminates all unnecessary data movement by targeting the full spectrum of data movement operators. VTC proposes the concept of virtual tensors to track data movement between compute operators via index mappings rather than expensive physical data transfers to and from global memory, which can seamlessly interoperate with existing computation kernels and handle arbitrary tensor operator compositions. We also introduce a novel data movement elimination algorithm to automatically identify a profitable virtual tensor creation strategy. Evaluation on a variety of DNNs shows that VTC can outperform existing ML compilers by up to 1.93x (1.28x on average) on NVIDIA GPUs with up to 60% (17.5% on average) inference memory savings.
- Abstract(参考訳): 計算処理とメモリ操作のレイテンシのギャップが広がるにつれ、データ移動の最適化はDNNコンパイルにおいてますます重要になっている。
レイアウト変換や演算子融合といった現在の最適化は、テンソル演算子のサブセットのみを対象としており、その結果、大きな言語モデルを含む現代のDNNワークロードにおけるデータ移動を減らす重要な機会を逃している。
VTCは,データ移動演算子の全スペクトルを対象とすることで,不要なデータ移動を初めて排除するテンソルコンパイルフレームワークである。
VTCは,既存の計算カーネルとシームレスに相互運用し,任意のテンソル演算子の構成を処理可能な,高コストな物理データ転送ではなく,インデックスマッピングによる演算子間のデータ移動を追跡する仮想テンソルの概念を提案する。
また,収益性の高い仮想テンソル生成戦略を自動識別する新しいデータ移動除去アルゴリズムを導入する。
さまざまなDNNの評価によると、VTCはNVIDIA GPUで既存のMLコンパイラを最大1.93倍(平均1.28倍)上回り、推論メモリの節約率は60%(17.5%)に達する。
関連論文リスト
- Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - An Efficient Sparse Kernel Generator for O(3)-Equivariant Deep Networks [0.5737287537823071]
回転同変グラフニューラルネットワークは、空間深層学習タスクにおける技術性能の状態を導出する。
クレーブシュ=ゴルドンテンソル積(Clebsch-Gordon tensor product, CG)は、2つの高次特徴ベクトルと高構造スパーステンソルを交換して高密度出力ベクトルを生成するカーネルである。
我々は、CGテンソル製品用のGPUスパースカーネルジェネレータを導入し、既存のオープンソース実装やクローズドソース実装よりも大幅に高速化する。
論文 参考訳(メタデータ) (2025-01-23T08:20:47Z) - Combined Scheduling, Memory Allocation and Tensor Replacement for
Minimizing Off-Chip Data Accesses of DNN Accelerators [6.393909466547065]
本稿では,Deep Neural Networks を専用ハードウェアアクセラレータにマッピングする COSMA という最適化フレームワークを提案する。
COSMAは、データアクセスを最小化する最適な演算子スケジュール、メモリ割り当て、テンソル置換を見つける。
既製のICPソルバを用いてCOSMAは,異なるアプリケーションに対して,多種多様な最先端DNNに対して,数秒で最適解が得られることを示した。
論文 参考訳(メタデータ) (2023-11-30T04:36:25Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic Token Mixer for Visual Recognition [63.93802691275012]
グローバル・ローカル・ダイナミクスを同時に学習するための軽量なデュアル・ダイナミック・トケン・ミキサー(D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1K分類では、TransXNet-TはSwin-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - PowerFusion: A Tensor Compiler with Explicit Data Movement Description
and Instruction-level Graph IR [10.059491353103526]
本稿では,メモリ集約演算子のための高性能コードを生成するテンソルコンパイラであるIntelliGenを提案する。
IntelliGenは計算とデータ移動の最適化の両方を考慮する。
NVIDIA GPU、AMD GPU、Cambricon MLU上でIntelliGenを評価し、平均で1.97x、2.93x、16.91x(1.28x、1.23x、2.31x)までスピードアップした。
論文 参考訳(メタデータ) (2023-07-11T03:17:40Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。
本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文 参考訳(メタデータ) (2022-05-23T12:35:18Z) - Truncated tensor Schatten p-norm based approach for spatiotemporal
traffic data imputation with complicated missing patterns [77.34726150561087]
本研究は, モード駆動繊維による3症例の欠失を含む, 4症例の欠失パターンについて紹介する。
本モデルでは, 目的関数の非性にもかかわらず, 乗算器の交互データ演算法を統合することにより, 最適解を導出する。
論文 参考訳(メタデータ) (2022-05-19T08:37:56Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。