Fugu-MT 論文翻訳(概要): Efficiency, Expressivity, and Extensibility in a Close-to-Metal NPU Programming Interface

論文の概要: Efficiency, Expressivity, and Extensibility in a Close-to-Metal NPU Programming Interface

arxiv url: http://arxiv.org/abs/2504.18430v1
Date: Fri, 25 Apr 2025 15:43:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:53.8269
Title: Efficiency, Expressivity, and Extensibility in a Close-to-Metal NPU Programming Interface
Title（参考訳）: NPUプログラミングインタフェースにおける効率性, 表現性, 拡張性
Authors: Erika Hunhoff, Joseph Melber, Kristof Denolf, Andra Bisca, Samuel Bayliss, Stephen Neuendorffer, Jeff Fifield, Jack Lo, Pranathi Vasireddy, Phil James-Roxby, Eric Keller,
Abstract要約: この作業は、NPUパフォーマンスエンジニアのためのツールキットであるIRONを使用して、デザイナの効率を向上させることを目的としている。我々はIRONに新しい洗練されたプログラミング構造を含むプログラマインタフェースを更新する。分析によると、コードの行数の平均が26%減少し、さまざまな設計のためのHalsteadメトリクスが減少している。
参考スコア（独自算出の注目度）: 0.9199464917832796
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Accelerators such as neural processing units (NPUs) deliver an enticing balance of performance and efficiency compared to general purpose compute architectures. However, effectively leveraging accelerator capabilities is not always simple: low-level programming toolkits may require substantial developer effort while high-level programming toolkits may abstract critical optimization features. This work aims to increase efficiency of designers using IRON, a toolkit for close-to-metal NPU performance engineers. We provide an updated programmer interface to IRON containing new and refined programming constructs. The new interface includes extensible features for placement and data transformation. These contributions are evaluated in terms of 1) efficiency, with analysis showing ~26% average reduction in lines of code and decreases in Halstead metrics for a variety of designs; 2) expressivity, demonstrating the new interface supports the wide range of features and patterns already supported by IRON; and 3) extensibility, illustrating the new tooling for placement and tiling can be extended to accommodate common use-cases.
Abstract（参考訳）: ニューラルプロセッシングユニット(NPU)のような加速器は、汎用の計算アーキテクチャと比較して、パフォーマンスと効率の両立を図っている。しかし、アクセラレーション機能を効果的に活用することは必ずしも簡単ではない。低レベルプログラミングツールキットは相当な開発者努力を必要とするかもしれないし、高レベルプログラミングツールキットは批判的な最適化機能を抽象化するかもしれない。この作業は、NPUパフォーマンスエンジニアのためのツールキットであるIRONを使用して、デザイナの効率を向上させることを目的としている。我々はIRONに新しい洗練されたプログラミング構造を含むプログラマインタフェースを更新する。新しいインターフェースには、配置とデータ変換のための拡張可能な機能が含まれている。これらの貢献は、観点で評価される 1) 効率性, コード行数の平均減少率を約26%, さまざまな設計のためのHalsteadメトリクスを削減した分析結果。 2) 表現性、新しいインターフェースのデモは、IRONがすでにサポートしている幅広い機能やパターンをサポートします。 3)拡張性、配置とタイリングのための新しいツールの具体化は、一般的なユースケースに対応するように拡張できる。

関連論文リスト

GENIAL: Generative Design Space Exploration via Network Inversion for Low Power Algorithmic Logic Units [1.5845117761091052]
本稿では,算術単位の自動生成と最適化のための機械学習ベースのフレームワークであるGENIALを紹介する。我々は、ジェネリックは他の方法よりも一貫してサンプリング効率が高く、最適化された設計に向けてより高速に収束することを示した。また、有限状態マシンの大幅な改善によって、我々のアプローチの汎用性を示す。
論文参考訳（メタデータ） (2025-07-25T06:34:59Z)
POLARON: Precision-aware On-device Learning and Adaptive Runtime-cONfigurable AI acceleration [0.0]
本研究は,効率的な乗算累積演算を行うSIMD対応マルチ精度MACエンジンを提案する。このアーキテクチャは、計算精度をワークロードの感度に合わせるための層適応的精度戦略を取り入れている。その結果,PDPは最大で2倍,資源使用量は3倍に改善した。
論文参考訳（メタデータ） (2025-06-10T13:33:02Z)
Hardware/Software Co-Design of RISC-V Extensions for Accelerating Sparse DNNs on FPGAs [1.4225653519332482]
半構造化および非構造化の空間を含むDNNモデルの高速化のための新しいRISC-V拡張を提案する。我々の設計では、小さなFPGA上でもDNNを加速できるように、少数のFPGAリソースを消費する。キーワードスポッティング、画像分類、人物検出など、標準のTinyMLアプリケーションに対して、我々の設計をベンチマークする。
論文参考訳（メタデータ） (2025-04-28T10:19:39Z)
OTC: Optimal Tool Calls via Reinforcement Learning [87.28134636548705]
ツール統合報酬は,正しさとツール効率を共同で考慮し,高いツール生産性を向上する。このアプローチでは,ツールコールを最大73.1%削減し,ツールの生産性を最大229.4%向上すると同時に,同等の回答精度を維持している。
論文参考訳（メタデータ） (2025-04-21T05:40:05Z)
Allo: A Programming Model for Composable Accelerator Design [7.884541004161727]
本稿では,効率的な空間加速器設計のための構成可能なプログラミングモデルであるAlloを紹介する。 Alloは、計算、メモリ、通信、データタイプなど、ハードウェアのカスタマイズをアルゴリズム仕様から切り離している。評価の結果,AlloはPolyBenchのすべてのテストケースにおいて,最先端のHLSツールやADLよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-04-07T05:47:54Z)
Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文参考訳（メタデータ） (2024-03-26T16:33:12Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Chimera: A Hybrid Machine Learning Driven Multi-Objective Design Space Exploration Tool for FPGA High-Level Synthesis [11.128278223431805]
高レベル合成(HLS)ツールはFPGAのハードウェア設計を単純化するために開発された。高いパフォーマンスを達成するためにこれらの最適化を適用するのには時間がかかり、通常は専門家の知識が必要です。本稿では,HLS最適化ディレクティブを応用した自動設計空間探索ツールChimeraを提案する。
論文参考訳（メタデータ） (2022-07-03T21:13:55Z)
FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文参考訳（メタデータ） (2022-01-18T13:59:22Z)
A Construction Kit for Efficient Low Power Neural Network Accelerator Designs [11.807678100385164]
この研究は、最近の研究で使用されているニューラルネットワークアクセラレータ最適化アプローチの調査を提供する。建設キットとして最適化と定量的効果のリストを提示し、各ビルディングブロックの設計選択を個別に評価する。
論文参考訳（メタデータ） (2021-06-24T07:53:56Z)
A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文参考訳（メタデータ） (2020-08-03T17:24:52Z)
Towards High Performance Relativistic Electronic Structure Modelling: The EXP-T Program Package [68.8204255655161]
並列計算機用に設計されたFS-RCC方式の新たな実装を提案する。実装のパフォーマンスとスケーリングの特徴を分析した。開発されたソフトウェアは、重い超重核を含む原子や分子の性質を予測するための全く新しいレベルの精度を達成することができる。
論文参考訳（メタデータ） (2020-04-07T20:08:30Z)
Towards High Performance, Portability, and Productivity: Lightweight Augmented Neural Networks for Performance Prediction [0.0]
カーネル変種ハードウェアの任意の組み合わせのための軽量な拡張ニューラルネットワークを提案する。従来のフィードフォワードニューラルネットワークよりもはるかに優れた、3%の低いMAPEが得られるのです。私たちの変分選択アプローチは、Halideの実装で、Halideの自動スケジューリングよりも最大1.7倍のスピードアップを得るために使用できます。
論文参考訳（メタデータ） (2020-03-17T02:19:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。