論文の概要: Hardware-Aware Data and Instruction Mapping for AI Tasks: Balancing Parallelism, I/O and Memory Tradeoffs
- arxiv url: http://arxiv.org/abs/2509.03846v1
- Date: Thu, 04 Sep 2025 03:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.03549
- Title: Hardware-Aware Data and Instruction Mapping for AI Tasks: Balancing Parallelism, I/O and Memory Tradeoffs
- Title(参考訳): AIタスクのためのハードウェア対応データと命令マッピング:並列性、I/O、メモリトレードオフのバランス
- Authors: Md Rownak Hossain Chowdhury, Mostafizur Rahman,
- Abstract要約: 我々は、予測可能なニューラルネットワークの振る舞いを利用して、予測可能なディープラーニング推論のためのマッピングフレームワークを導入し、計算と通信の両方を事前に計画する。
このフレームワークは命令とデータの統一的なストリームを生成し、ハードウェアが自身の操作を実行し、情報をルーティングすることを可能にする。
これにより、I/O、オフチップメモリ、ホスト制御への依存が自然に減少する。
- 参考スコア(独自算出の注目度): 0.7611952719599798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a mapping framework for deep learning inference that takes advantage of predictable neural network behavior to plan both computation and communication ahead of time. The framework generates a unified stream of instructions and data, enabling the hardware to execute operations and route information on its own, without frequent involvement from the host and with minimal off-chip memory use. This naturally reduces reliance on I/O, off-chip memory, and host control. By leveraging fine-grained message passing on a programmable, message-based compute architecture, the framework keeps data movement local and coordinates computation across the array using techniques such as stationary-weight reuse, in-array multicasting, and staged reductions. Applied to VGG-19, the framework sustains high utilization (88 to 92 percent), with over 97 percent of messages generated internally and nearly 89 percent of time consumed on-chip transfers. Computation throughput scales beyond 1 TFLOP/s on larger arrays, while traffic reductions from reuse and local aggregation reach up to 100 MB per layer. Overall, the results highlight the effectiveness of streaming-based computation and show how our mapper enables this execution style by tightly coordinating data and instruction flow across the hardware.
- Abstract(参考訳): 我々は、予測可能なニューラルネットワークの振る舞いを利用して、予測可能なディープラーニング推論のためのマッピングフレームワークを導入し、計算と通信の両方を事前に計画する。
このフレームワークは命令とデータの統一ストリームを生成し、ハードウェアはホストからの頻繁な関与なく、最小限のオフチップメモリ使用で、単独で操作とルート情報を実行できる。
これにより、I/O、オフチップメモリ、ホスト制御への依存が自然に減少する。
プログラム可能なメッセージベースの計算アーキテクチャ上で、きめ細かいメッセージパッシングを活用することで、このフレームワークは、データ移動を局所的に保持し、定常重み付け再利用、インアレイマルチキャスト、ステージ化還元といった技術を用いて、配列全体の計算をコーディネートする。
VGG-19に適用されたこのフレームワークは、高い利用率(88~92%)を維持し、97%以上のメッセージが内部で生成され、99%近くがオンチップ転送に費やされている。
計算スループットはより大きな配列上で1 TFLOP/sを超えるが、再利用や局所的な集約によるトラフィックの削減は1層あたり100MBに達する。
全体として、ストリーミングベースの計算の有効性を強調し、ハードウェア全体のデータと命令フローを厳格に調整することで、我々のマッパーがこの実行スタイルをどのように実現しているかを示す。
関連論文リスト
- Stochastic Communication Avoidance for Recommendation Systems [27.616664288148232]
本稿では,ルックアップテーブルを用いた任意の分散システムの通信コストを解析する理論的枠組みを提案する。
本稿では,メモリ,計算,通信制約を考慮したスループットを最大化するアルゴリズムを提案する。
フレームワークとアルゴリズムをPyTorchで実装し、ベースラインを越えたGPUシステムのトレーニングスループットを最大6倍に向上します。
論文 参考訳(メタデータ) (2024-11-03T15:37:37Z) - TrIM, Triangular Input Movement Systolic Array for Convolutional Neural Networks: Architecture and Hardware Implementation [0.0]
TrIMは、入力の三角移動に基づく革新的なデータフローである。
TrIMは、最先端のシストリックアレイと比較して1桁のメモリアクセス数を削減できる。
アーキテクチャは、毎秒453.6ギガオペレーションのピークスループットを達成する。
論文 参考訳(メタデータ) (2024-08-05T10:18:00Z) - CHIME: Energy-Efficient STT-RAM-based Concurrent Hierarchical In-Memory Processing [1.5566524830295307]
本稿では、新しいPiC/PiMアーキテクチャ、Concurrent Hierarchical In-Memory Processing(CHIME)を紹介する。
CHIMEは、メモリ階層の複数のレベルにわたる不均一な計算ユニットを戦略的に組み込む。
実験の結果、最先端のビット線コンピューティングアプローチと比較して、CHIMEは57.95%と78.23%の大幅なスピードアップと省エネを実現していることがわかった。
論文 参考訳(メタデータ) (2024-07-29T01:17:54Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Collaborative Learning over Wireless Networks: An Introductory Overview [84.09366153693361]
主に、ワイヤレスデバイス間の協調トレーニングに焦点を合わせます。
過去数十年間、多くの分散最適化アルゴリズムが開発されてきた。
データ局所性 – すなわち、各参加デバイスで利用可能なデータがローカルのままである間、共同モデルを協調的にトレーニングすることができる。
論文 参考訳(メタデータ) (2021-12-07T20:15:39Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。