Fugu-MT 論文翻訳(概要): Allo: A Programming Model for Composable Accelerator Design

論文の概要: Allo: A Programming Model for Composable Accelerator Design

arxiv url: http://arxiv.org/abs/2404.04815v1
Date: Sun, 7 Apr 2024 05:47:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 19:30:39.109625
Title: Allo: A Programming Model for Composable Accelerator Design
Title（参考訳）: Allo: 構成可能なアクセラレータ設計のためのプログラミングモデル
Authors: Hongzheng Chen, Niansong Zhang, Shaojie Xiang, Zhichen Zeng, Mengjia Dai, Zhiru Zhang,
Abstract要約: 本稿では,効率的な空間加速器設計のための構成可能なプログラミングモデルであるAlloを紹介する。 Alloは、計算、メモリ、通信、データタイプなど、ハードウェアのカスタマイズをアルゴリズム仕様から切り離している。評価の結果,AlloはPolyBenchのすべてのテストケースにおいて,最先端のHLSツールやADLよりも優れていることがわかった。
参考スコア（独自算出の注目度）: 7.884541004161727
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Special-purpose hardware accelerators are increasingly pivotal for sustaining performance improvements in emerging applications, especially as the benefits of technology scaling continue to diminish. However, designers currently lack effective tools and methodologies to construct complex, high-performance accelerator architectures in a productive manner. Existing high-level synthesis (HLS) tools often require intrusive source-level changes to attain satisfactory quality of results. Despite the introduction of several new accelerator design languages (ADLs) aiming to enhance or replace HLS, their advantages are more evident in relatively simple applications with a single kernel. Existing ADLs prove less effective for realistic hierarchical designs with multiple kernels, even if the design hierarchy is flattened. In this paper, we introduce Allo, a composable programming model for efficient spatial accelerator design. Allo decouples hardware customizations, including compute, memory, communication, and data type from algorithm specification, and encapsulates them as a set of customization primitives. Allo preserves the hierarchical structure of an input program by combining customizations from different functions in a bottom-up, type-safe manner. This approach facilitates holistic optimizations that span across function boundaries. We conduct comprehensive experiments on commonly-used HLS benchmarks and several realistic deep learning models. Our evaluation shows that Allo can outperform state-of-the-art HLS tools and ADLs on all test cases in the PolyBench. For the GPT2 model, the inference latency of the Allo generated accelerator is 1.7x faster than the NVIDIA A100 GPU with 5.4x higher energy efficiency, demonstrating the capability of Allo to handle large-scale designs.
Abstract（参考訳）: 特殊目的ハードウェアアクセラレータは、特にテクノロジスケーリングのメリットが減少を続ける中で、新興アプリケーションのパフォーマンス改善を維持するために、ますます重要になっている。しかし、デザイナは現在、複雑な高性能加速器アーキテクチャを生産的に構築する効果的なツールや方法論を欠いている。既存のHLS(High-level synthesis)ツールは、結果の良好な品質を達成するために、侵入的なソースレベルの変更を必要とすることが多い。 HLSの強化や置き換えを目的としたいくつかの新しいアクセラレータ設計言語 (ADL) が導入されたが、その利点は比較的単純なアプリケーションにおいて1つのカーネルでより明らかである。既存のADLは、たとえ設計階層が平坦であったとしても、複数のカーネルを持つ現実的な階層設計では効果が低い。本稿では,効率的な空間加速器設計のための構成可能なプログラミングモデルであるAlloを紹介する。 Alloは、アルゴリズム仕様から計算、メモリ、通信、データタイプを含むハードウェアのカスタマイズを分離し、それらをカスタマイズプリミティブのセットとしてカプセル化する。 Alloは、ボトムアップでタイプセーフな方法で異なる関数からのカスタマイズを組み合わせることで、入力プログラムの階層構造を保存する。このアプローチは関数境界にまたがる全体最適化を促進する。我々は、一般的に使われているHLSベンチマークと、いくつかの現実的なディープラーニングモデルに関する包括的な実験を行う。評価の結果,AlloはPolyBenchのすべてのテストケースにおいて,最先端のHLSツールやADLよりも優れていることがわかった。 GPT2モデルでは、Alloの生成したアクセラレータの推論レイテンシはNVIDIA A100 GPUの5.4倍のエネルギー効率で1.7倍速くなる。

関連論文リスト

CALM: Co-evolution of Algorithms and Language Model for Automatic Heuristic Design [11.639825726501659]
大規模言語モデル(LLM)は、従来のコストのごく一部で自律的にハイパフォーマンスを発見できる。本稿では,言語指導と数値指導を組み合わせたハイブリッドフレームワークを提案する。本手法は,様々な最適化タスクにおいて,SOTA(State-of-the-art)ベースラインを上回っている。
論文参考訳（メタデータ） (2025-05-18T07:48:47Z)
Efficiency, Expressivity, and Extensibility in a Close-to-Metal NPU Programming Interface [0.9199464917832796]
この作業は、NPUパフォーマンスエンジニアのためのツールキットであるIRONを使用して、デザイナの効率を向上させることを目的としている。我々はIRONに新しい洗練されたプログラミング構造を含むプログラマインタフェースを更新する。分析によると、コードの行数の平均が26%減少し、さまざまな設計のためのHalsteadメトリクスが減少している。
論文参考訳（メタデータ） (2025-04-25T15:43:50Z)
Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。 MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2025-03-27T00:59:14Z)
LiteGS: A High-Performance Modular Framework for Gaussian Splatting Training [0.21756081703275998]
LiteGSは高性能でモジュラーなフレームワークであり、ガウススプラッティングの効率性とユーザビリティを向上させる。 LiteGSはオリジナルの3DGS実装よりも3.4倍のスピードアップを実現し、メモリ使用量を約30%削減した。
論文参考訳（メタデータ） (2025-03-03T05:52:02Z)
Striving for Faster and Better: A One-Layer Architecture with Auto Re-parameterization for Low-Light Image Enhancement [50.93686436282772]
我々は、視覚的品質と計算効率の両方から、画像エンハンサーの限界を掘り下げることを目指している。タスク要求を再考することにより、視覚的品質と計算効率がモデル学習と構造設計に対応する、明示的な接続を構築する。最終的には、単一の畳み込み層のみを使用して、優れた視覚的品質を維持しながら、効率的な低照度画像強調を実現する。
論文参考訳（メタデータ） (2025-02-27T08:20:03Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。 GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文参考訳（メタデータ） (2024-12-24T02:27:44Z)
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。 AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2024-11-07T18:43:17Z)
HESSO: Towards Automatic Efficient and User Friendly Any Neural Network Training and Pruning [38.01465387364115]
Only-Train-Once (OTO)シリーズはワークフローの合理化によって多くの問題点を解決するために最近提案されている。各種アプリケーションにおけるHESSOとHESSO-CRICの改良版の有効性を数値的に示す。
論文参考訳（メタデータ） (2024-09-11T05:28:52Z)
Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文参考訳（メタデータ） (2024-07-12T09:24:34Z)
AutoHLS: Learning to Accelerate Design Space Exploration for HLS Designs [10.690389829735661]
本稿では,深層ニューラルネットワーク(DNN)とベイズ最適化(BO)を統合してHLSハードウェア設計最適化を高速化する,AutoHLSという新しいフレームワークを提案する。実験の結果,探索時間の70倍のスピードアップが得られた。
論文参考訳（メタデータ） (2024-03-15T21:14:44Z)
Using the Abstract Computer Architecture Description Language to Model AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文参考訳（メタデータ） (2024-01-30T19:27:16Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
Chimera: A Hybrid Machine Learning Driven Multi-Objective Design Space Exploration Tool for FPGA High-Level Synthesis [11.128278223431805]
高レベル合成(HLS)ツールはFPGAのハードウェア設計を単純化するために開発された。高いパフォーマンスを達成するためにこれらの最適化を適用するのには時間がかかり、通常は専門家の知識が必要です。本稿では,HLS最適化ディレクティブを応用した自動設計空間探索ツールChimeraを提案する。
論文参考訳（メタデータ） (2022-07-03T21:13:55Z)
FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文参考訳（メタデータ） (2022-01-18T13:59:22Z)
AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-07-15T16:46:01Z)
Scalable Deep-Learning-Accelerated Topology Optimization for Additively Manufactured Materials [4.221095652322005]
トポロジー最適化(TO)は、新しい構造、材料、デバイスを設計するための、人気があり強力な計算手法である。これらの課題に対処するため、SDL-TOと呼ばれる汎用拡張型ディープラーニング(DL)ベースのToフレームワークを提案する。我々のフレームワークは、反復履歴データを学習し、与えられた設計と勾配のマッピングを同時にトレーニングすることで、TOを加速します。
論文参考訳（メタデータ） (2020-11-28T17:38:31Z)
Agile Autotuning of a Transprecision Tensor Accelerator Overlay for TVM Compiler Stack [1.8337659614890698]
ブロック行列演算や多次元畳み込みなどのテンソル演算のための特別なアクセラレータは、ディープラーニングコンピューティングの強力なアーキテクチャ選択として登場した。フレームワーク、モデル、精度オプションの急速な開発は、そのようなテンソル加速器の適応性に挑戦する。プログラム可能なテンソルアクセラレータは、物理FPGAファブリック上にオーバーレイする仮想アーキテクチャの再構成を可能にすることで、有望な代替手段を提供する。
論文参考訳（メタデータ） (2020-04-20T10:12:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。