Fugu-MT 論文翻訳(概要): Dato: A Task-Based Programming Model for Dataflow Accelerators

論文の概要: Dato: A Task-Based Programming Model for Dataflow Accelerators

arxiv url: http://arxiv.org/abs/2509.06794v1
Date: Mon, 08 Sep 2025 15:22:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-09 14:07:04.213811
Title: Dato: A Task-Based Programming Model for Dataflow Accelerators
Title（参考訳）: Dato: データフローアクセラレータのためのタスクベースのプログラミングモデル
Authors: Shihan Fang, Hongzheng Chen, Niansong Zhang, Jiajie Li, Han Meng, Adrian Liu, Zhiru Zhang,
Abstract要約: データフローアクセラレーターのためのPython組み込みタスクベースのプログラミングモデルであるDatoを紹介する。 Datoはデータ通信とシャーディングをファーストクラスのコンストラクトに高める。 Datoは高いパフォーマンスを実現し、最適化されたコードを書くことの負担を大幅に削減します。
参考スコア（独自算出の注目度）: 13.87015257740592
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent deep learning workloads increasingly push computational demand beyond what current memory systems can sustain, with many kernels stalling on data movement rather than computation. While modern dataflow accelerators incorporate on-chip streaming to mitigate off-chip bandwidth limitations, existing programming models struggle to harness these capabilities effectively. Low-level interfaces provide fine-grained control but impose significant development overhead, whereas high-level tile-based languages abstract away communication details, restricting optimization and forcing compilers to reconstruct the intended dataflow. We present Dato, a Python-embedded, task-based programming model for dataflow accelerators that elevates data communication and sharding to first-class type constructs. Developers write programs as a graph of tasks connected via explicit stream types, with sharded inputs specified using layout types. These tasks are first mapped virtually onto the accelerator's spatial fabric, and the compiler then generates a physical mapping that respects hardware constraints. Experimental results on both AMD Ryzen AI NPU and Alveo FPGA devices demonstrate that Dato achieves high performance while significantly reducing the burden of writing optimized code. On the NPU, Dato attains up to 84% hardware utilization for GEMM and delivers a 2.81x speedup on attention kernels compared to a state-of-the-art commercial framework. On the FPGA, Dato surpasses leading frameworks in performance when generating custom systolic arrays, achieving 98% of the theoretical peak performance.
Abstract（参考訳）: 最近のディープラーニングワークロードは、計算の需要を現在のメモリシステムが維持できる範囲を超えて押し上げ、多くのカーネルは計算よりもデータ移動を停滞させています。現代のデータフローアクセラレータにはオンチップストリーミングが組み込まれており、オフチップの帯域幅制限を軽減しているが、既存のプログラミングモデルはこれらの機能を効果的に活用するのに苦労している。低レベルのインターフェースはきめ細かい制御を提供するが、開発上のオーバーヘッドは大きいが、高レベルのタイルベースの言語は通信の詳細を抽象化し、最適化を制限し、コンパイラに意図したデータフローの再構築を強制する。我々はデータフローアクセラレーターのためのPython組み込みタスクベースのプログラミングモデルであるDatoを紹介し、データ通信を向上し、第一級の型構造にシャーディングする。開発者は明示的なストリームタイプを介して接続されたタスクのグラフとしてプログラムを記述する。これらのタスクは、まずアクセルの空間ファブリックに仮想的にマッピングされ、次にコンパイラはハードウェアの制約を尊重する物理マッピングを生成する。 AMD Ryzen AI NPU と Alveo FPGA デバイスでの実験結果から,Dato は高い性能を実現し,最適化コードの書き込みの負担を大幅に軽減した。 NPUでは,GEMMのハードウェア利用率が最大84%に達し,最先端の商用フレームワークと比較して注目カーネルの2.81倍の高速化を実現している。 FPGA上では、Datoはカスタムシストリックアレイを生成する際の主要なフレームワークを上回り、理論的なピーク性能の98%を達成している。

関連論文リスト

NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
TileLang: A Composable Tiled Programming Model for AI Systems [17.240134151647187]
我々は、より効率的なAIプログラミングのための一般化タイルプログラミングモデルであるTileLangを紹介する。 TileLangはスケジューリングスペース(スレッドバインディング、レイアウト、テンソル化、パイプライン)をデータフローから切り離し、カスタマイズアノテーションとプリミティブのセットとしてカプセル化した。我々は、多くの実験において、一般的なデバイス上で包括的な実験を行い、キーカーネルでTileLangが最先端のパフォーマンスを達成できることを実証した。
論文参考訳（メタデータ） (2025-04-24T14:08:49Z)
InTAR: Inter-Task Auto-Reconfigurable Accelerator Design for High Data Volume Variation in DNNs [5.762543012823378]
InTARはFPGA上のHDVアプリケーションのための新しいアクセラレータ設計手法である。回路設計の前に決定された静的スケジュールで実行パターンを自動的に切り替える。 InTARは、少ないリソースと低い再構成時間で高いクロック周波数を達成する。
論文参考訳（メタデータ） (2025-02-12T21:43:51Z)
Code generation and runtime techniques for enabling data-efficient deep learning training on GPUs [8.00550423071637]
この論文は、特にグラフニューラルネットワーク(GNN)と大規模言語モデル(LLM)において、代表的深層学習タスクにおけるデータ非効率を解析する。これらの課題を軽減し、PyTorchスタック内でこれらの最適化をシームレスに実装するための、新しいランタイムとコード生成技術を提案する。
論文参考訳（メタデータ） (2024-12-06T03:20:03Z)
HASS: Hardware-Aware Sparsity Search for Dataflow DNN Accelerator [47.66463010685586]
本稿では,ソフトウェアとハードウェアの共同最適化を用いて,非構造的ウェイトとデータフローアクセラレーターの疎結合性を利用した新しい手法を提案する。我々は既存のスパース設計と比較して1.3$times$から4.2$times$までの効率改善を実現している。
論文参考訳（メタデータ） (2024-06-05T09:25:18Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
Towards High Performance Java-based Deep Learning Frameworks [0.22940141855172028]
現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
論文参考訳（メタデータ） (2020-01-13T13:03:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。