論文の概要: Tensor Program Optimization for the RISC-V Vector Extension Using Probabilistic Programs
- arxiv url: http://arxiv.org/abs/2507.01457v1
- Date: Wed, 02 Jul 2025 08:15:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.095621
- Title: Tensor Program Optimization for the RISC-V Vector Extension Using Probabilistic Programs
- Title(参考訳): 確率的プログラムを用いたRISC-Vベクトル拡張のためのテンソルプログラム最適化
- Authors: Federico Nicolas Peccia, Frederik Haxel, Oliver Bringmann,
- Abstract要約: RISC-VベクトルユニットにAIワークロードを効率的にマッピングするためのTVMコンパイラに基づくワークフローを提案する。
本提案では,GCCのオートベクタ化機能と比較して,実行レイテンシが平均46%向上したことを示す。
コミュニティが他のRISC-V拡張をターゲットに拡張する提案をオープンソースとして公開しました。
- 参考スコア(独自算出の注目度): 0.6242215470795112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RISC-V provides a flexible and scalable platform for applications ranging from embedded devices to high-performance computing clusters. Particularly, its RISC-V Vector Extension (RVV) becomes of interest for the acceleration of AI workloads. But writing software that efficiently utilizes the vector units of RISC-V CPUs without expert knowledge requires the programmer to rely on the autovectorization features of compilers or hand-crafted libraries like muRISCV-NN. Smarter approaches, like autotuning frameworks, have been missing the integration with the RISC-V RVV extension, thus heavily limiting the efficient deployment of complex AI workloads. In this paper, we present a workflow based on the TVM compiler to efficiently map AI workloads onto RISC-V vector units. Instead of relying on hand-crafted libraries, we integrated the RVV extension into TVM's MetaSchedule framework, a probabilistic program framework for tensor operation tuning. We implemented different RISC-V SoCs on an FPGA and tuned a wide range of AI workloads on them. We found that our proposal shows a mean improvement of 46% in execution latency when compared against the autovectorization feature of GCC, and 29% against muRISCV-NN. Moreover, the binary resulting from our proposal has a smaller code memory footprint, making it more suitable for embedded devices. Finally, we also evaluated our solution on a commercially available RISC-V SoC implementing the RVV 1.0 Vector Extension and found our solution is able to find mappings that are 35% faster on average than the ones proposed by LLVM. We open-sourced our proposal for the community to expand it to target other RISC-V extensions.
- Abstract(参考訳): RISC-Vは、組み込みデバイスから高性能コンピューティングクラスタまで幅広いアプリケーションのための、フレキシブルでスケーラブルなプラットフォームを提供する。
特に、RISC-V Vector Extension(RVV)は、AIワークロードの加速に関心を持つ。
しかし、知識のないRISC-V CPUのベクトルユニットを効率的に活用するソフトウェアを書くには、コンパイラのオートベクター化機能や、muRISCV-NNのような手作りのライブラリに頼る必要がある。
自動チューニングフレームワークのようなスマートなアプローチは、RISC-V RVV拡張との統合を欠いているため、複雑なAIワークロードの効率的なデプロイが大幅に制限されている。
本稿では,AIワークロードをRISC-Vベクトルユニットに効率的にマッピングする,TVMコンパイラに基づくワークフローを提案する。
手作りのライブラリに頼る代わりに、RVV拡張をTVMのMetaScheduleフレームワークに統合しました。
FPGAに様々なRISC-V SoCを実装し、その上に幅広いAIワークロードをチューニングしました。
提案手法では,GCCのオートベクター化機能と比較して実行遅延が46%改善し,MURISCV-NNに対して29%改善した。
さらに、提案したバイナリは、コードメモリフットプリントが小さく、組み込みデバイスにより適している。
最後に、市販のRISC-V SoCでRVV 1.0 Vector Extensionを実装し、LLVMが提案したものよりも平均して35%高速なマッピングを見つけることができることを確認しました。
コミュニティが他のRISC-V拡張をターゲットに拡張する提案をオープンソースとして公開しました。
関連論文リスト
- Design and Implementation of a RISC-V SoC with Custom DSP Accelerators for Edge Computing [0.0]
乗算 (M) とアトミック演算 (A) を拡張したRV32I ベース命令セットについて検討する。
本研究は,組込みシステムにおけるRISC-Vの利点と,カスタムアクセラレータのスケーラビリティを示すものである。
論文 参考訳(メタデータ) (2025-06-07T07:17:40Z) - Hardware/Software Co-Design of RISC-V Extensions for Accelerating Sparse DNNs on FPGAs [1.4225653519332482]
半構造化および非構造化の空間を含むDNNモデルの高速化のための新しいRISC-V拡張を提案する。
我々の設計では、小さなFPGA上でもDNNを加速できるように、少数のFPGAリソースを消費する。
キーワードスポッティング、画像分類、人物検出など、標準のTinyMLアプリケーションに対して、我々の設計をベンチマークする。
論文 参考訳(メタデータ) (2025-04-28T10:19:39Z) - RISC-V RVV efficiency for ANN algorithms [0.5892638927736115]
本研究では、一般的なANNアルゴリズムにRVVを適用することの有効性について検討する。
アルゴリズムはRISC-Vに適応し、主要なボトルネックを特定した後、RVVを使用して最適化された。
論文 参考訳(メタデータ) (2024-07-18T09:26:07Z) - RISC-V R-Extension: Advancing Efficiency with Rented-Pipeline for Edge DNN Processing [0.8192907805418583]
本稿では,エッジデバイス上でのディープニューラルネットワーク(DNN)プロセス効率向上のための新しいアプローチであるRISC-V R-extensionを紹介する。
この拡張はレンタルパイプラインステージとアーキテクチャパイプラインレジスタ(APR)を備えており、クリティカルな操作の実行を最適化し、レイテンシとメモリアクセス頻度を低減している。
論文 参考訳(メタデータ) (2024-07-02T19:25:05Z) - Enhancing Dropout-based Bayesian Neural Networks with Multi-Exit on FPGA [20.629635991749808]
本稿では,フィールドプログラマブルゲートアレイ(FPGA)ベースのアクセラレータを効率よく生成するアルゴリズムとハードウェアの共同設計フレームワークを提案する。
アルゴリズムレベルでは、計算とメモリのオーバーヘッドを低減した、新しいマルチエグジット・ドロップアウトベースのベイズNNを提案する。
ハードウェアレベルでは,提案する効率的なベイズNNのためのFPGAベースのアクセラレータを生成するための変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-20T17:08:42Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Joint User Association, Interference Cancellation and Power Control for
Multi-IRS Assisted UAV Communications [80.35959154762381]
インテリジェント反射面(IRS)支援無人航空機(UAV)通信は、地上基地局の負荷を低コストで軽減することが期待されている。
既存の研究は主に、複数のIRSではなく単一のIRSの配置とリソース割り当てに焦点を当てている。
我々は,共同IRSユーザアソシエーションのための新しい最適化アルゴリズム,UAVの軌道最適化,逐次干渉キャンセル(SIC)復号命令スケジューリング,電力割り当てを提案する。
論文 参考訳(メタデータ) (2023-12-08T01:57:10Z) - Improved vectorization of OpenCV algorithms for RISC-V CPUs [0.0]
利用可能なRISC-Vプロセッサ上で計算を高速化する可能性について論じる。
ベクター化の改善により、RISC-Vデバイスの既存のプロトタイプの計算速度が数千パーセント向上することが示されている。
論文 参考訳(メタデータ) (2023-09-19T12:36:03Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。