論文の概要: LEGO: Spatial Accelerator Generation and Optimization for Tensor Applications
- arxiv url: http://arxiv.org/abs/2509.12053v1
- Date: Mon, 15 Sep 2025 15:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.374331
- Title: LEGO: Spatial Accelerator Generation and Optimization for Tensor Applications
- Title(参考訳): LEGO: テンソルアプリケーションのための空間加速器生成と最適化
- Authors: Yujun Lin, Zhekai Zhang, Song Han,
- Abstract要約: 既存のフレームワークは、設計の柔軟性とRTL生成の生産性のトレードオフに悩まされている。
本稿では,空間設計を自動生成し,手書きのRTL設計テンプレートを使わずに合成可能なRTLコードを出力するLEGOフレームワークを提案する。
LEGOは従来のGemminiに比べて3.2倍のスピードアップと2.4倍のエネルギー効率を達成できることを示す。
- 参考スコア(独自算出の注目度): 8.942692321946888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern tensor applications, especially foundation models and generative AI applications require multiple input modalities (both vision and language), which increases the demand for flexible accelerator architecture. Existing frameworks suffer from the trade-off between design flexibility and productivity of RTL generation: either limited to very few hand-written templates or cannot automatically generate the RTL. To address this challenge, we propose the LEGO framework, which targets tensor applications and automatically generates spatial architecture design and outputs synthesizable RTL code without handwritten RTL design templates. Leveraging the affine-transformation-based architecture representation, LEGO front end finds interconnections between function units, synthesizes the memory system, and fuses different spatial dataflow designs based on data reuse analysis. LEGO back end then translates the hardware in a primitive-level graph to perform lower-level optimizations, and applies a set of linear-programming algorithms to optimally insert pipeline registers and reduce the overhead of unused logic when switching spatial dataflows. Our evaluation demonstrates that LEGO can achieve 3.2x speedup and 2.4x energy efficiency compared to previous work Gemmini, and can generate one architecture for diverse modern foundation models in generative AI applications.
- Abstract(参考訳): 現代のテンソルアプリケーション、特に基礎モデルと生成AIアプリケーションは、複数の入力モード(ビジョンと言語の両方)を必要とするため、柔軟な加速器アーキテクチャの需要が増大する。
既存のフレームワークは、設計の柔軟性とRTL生成の生産性のトレードオフに悩まされている。
この課題に対処するために、テンソルアプリケーションをターゲットにしたLEGOフレームワークを提案し、空間アーキテクチャ設計を自動生成し、手書きのRTL設計テンプレートを使わずに合成可能なRTLコードを出力する。
アフィン変換に基づくアーキテクチャ表現を利用して、LEGOフロントエンドは関数ユニット間の相互接続を見つけ、メモリシステムを合成し、データ再利用分析に基づいて異なる空間データフロー設計を融合する。
LEGOのバックエンドは、プリミティブレベルのグラフでハードウェアを変換して低レベルの最適化を行い、線形プログラミングアルゴリズムのセットを適用してパイプラインレジスタを最適に挿入し、空間データフローを切り替える際の未使用ロジックのオーバーヘッドを低減する。
我々の評価は、LEGOが以前のGemminiと比較して3.2倍のスピードアップと2.4倍のエネルギー効率を達成できることを示し、生成型AIアプリケーションにおける多様な基礎モデルのための1つのアーキテクチャを生成することができる。
関連論文リスト
- Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。
HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。
我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文 参考訳(メタデータ) (2025-04-14T00:29:49Z) - Neural Architecture Codesign for Fast Physics Applications [0.8692847090818803]
物理応用のためのニューラルネットワーク符号の合理化のためのパイプラインを開発した。
ハードウェア効率の良いモデルを見つけるために,ニューラルネットワーク探索とネットワーク圧縮を2段階のアプローチで実施する。
論文 参考訳(メタデータ) (2025-01-09T19:00:03Z) - STAR: Synthesis of Tailored Architectures [61.080157488857516]
本稿では, 適合型アーキテクチャ (STAR) の新規な合成手法を提案する。
提案手法は線形入力可変系の理論に基づく新しい探索空間を結合し,階層的な数値エンコーディングをアーキテクチャゲノムに支持する。STARゲノムは,複数のモデル品質と効率の指標に最適化するために,勾配のない進化的アルゴリズムで自動的に精製・組換えされる。
STARを用いて、多種多様な計算単位と相互接続パターンを活用し、品質、パラメータサイズ、および自動回帰言語モデリングのための推論キャッシュのフロンティアにおける高度に最適化されたトランスフォーマーとストライプハイブリッドモデルを改善する。
論文 参考訳(メタデータ) (2024-11-26T18:42:42Z) - AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Learning Stackable and Skippable LEGO Bricks for Efficient, Reconfigurable, and Variable-Resolution Diffusion Modeling [98.65190562585461]
拡散モデルはフォトリアリスティックな画像を生成するのに優れるが、計算コストは非常に高い。
現在のオプションであるU-NetやVision Transformerはリソース集約型のディープネットワークに依存していることが多い。
本研究は,ローカル・フィーチャー・エンリッチメントとグローバル・コンテント・オーケストレーションをシームレスに統合したLEGOブロックを紹介した。
論文 参考訳(メタデータ) (2023-10-10T07:52:30Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Scalable Deep-Learning-Accelerated Topology Optimization for Additively
Manufactured Materials [4.221095652322005]
トポロジー最適化(TO)は、新しい構造、材料、デバイスを設計するための、人気があり強力な計算手法である。
これらの課題に対処するため、SDL-TOと呼ばれる汎用拡張型ディープラーニング(DL)ベースのToフレームワークを提案する。
我々のフレームワークは、反復履歴データを学習し、与えられた設計と勾配のマッピングを同時にトレーニングすることで、TOを加速します。
論文 参考訳(メタデータ) (2020-11-28T17:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。