論文の概要: From LLM to Silicon: RL-Driven ASIC Architecture Exploration for On-Device AI Inference
- arxiv url: http://arxiv.org/abs/2604.07526v1
- Date: Wed, 08 Apr 2026 19:04:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.522017
- Title: From LLM to Silicon: RL-Driven ASIC Architecture Exploration for On-Device AI Inference
- Title(参考訳): LLMからシリコンへ: オンデバイスAI推論のためのRL駆動ASICアーキテクチャ探索
- Authors: Ravindra Ganti, Steve Xu,
- Abstract要約: 本稿では,3nmから28nmのAI推論のためのASICアーキテクチャ,メモリ階層,ワークロードパーティショニングを共同で最適化するRL駆動コンパイラを提案する。
7つのプロセスノードにまたがって、RLは、ノード固有の手動修正なしで、不均一なFETCH、VLEN、メモリ割り当てを含むメッシュサイズとタイル単位の設定を自動的に適応する。
- 参考スコア(独自算出の注目度): 0.02908681835446471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an RL-driven compiler that jointly optimizes ASIC architecture, memory hierarchy, and workload partitioning for AI inference across 3nm to 28nm. The design space is formulated as a single Markov Decision Process with mixed discrete-continuous actions and a unified Power-Performance-Area (PPA) objective. Soft Actor-Critic (SAC) with Mixture-of-Experts gating explores the joint space of mesh topology, per-core microarchitecture, and operator placement. We validate on two workloads, Llama 3.1 8B FP16 (high-performance mode, 29809 tokens per second at 3nm) and SmolVLM (low-power mode, less than 13 mW at all nodes, 10 MHz). Across 7 process nodes, the RL automatically adapts mesh sizes and per-tile configurations, including heterogeneous FETCH, VLEN, and memory allocation without node-specific manual retuning.
- Abstract(参考訳): 本稿では,3nmから28nmのAI推論のためのASICアーキテクチャ,メモリ階層,ワークロードパーティショニングを共同で最適化するRL駆動コンパイラを提案する。
設計空間は1つのマルコフ決定プロセスとして定式化され、混合離散連続動作とPPA(Power-Performance-Area)の目的が統一される。
Mixture-of-Experts Gatingを用いたSoft Actor-Critic (SAC)はメッシュトポロジ、コアごとのマイクロアーキテクチャ、演算子配置の結合空間を探索する。
Llama 3.1 8B FP16(ハイパフォーマンスモード、3nmで秒間29809トークン)とSmolVLM(低消費電力モード、全ノードで13mW未満、10MHz)の2つのワークロードを検証した。
7つのプロセスノードにまたがって、RLは、ノード固有の手動修正なしで、不均一なFETCH、VLEN、メモリ割り当てを含むメッシュサイズとタイル単位の設定を自動的に適応する。
関連論文リスト
- RISC-V Based TinyML Accelerator for Depthwise Separable Convolutions in Edge AI [1.1816942730023885]
本稿では,融合画素データフローを利用したハードウェアアクセラレーションアーキテクチャを提案する。
単一の出力ピクセルを計算し、すべてのステージ展開、奥行きの畳み込み、プロジェクションバイ・ストリーミングデータにわたって完了させる。
RISC-Vコア上でのベースラインソフトウェア実行で最大59.3倍の高速化を実現している。
論文 参考訳(メタデータ) (2025-11-26T10:01:31Z) - Binary Quantization For LLMs Through Dynamic Grouping [13.578307208515819]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
16ビットのBrain Floatから-1,1の1ビットの表現にモデル重みを圧縮するバイナリ量子化は、ストレージと推論コストを大幅に削減する。
本稿では,2値量子化に適した新しい最適化目標と,これを効果的に実現するための3つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-03T06:36:21Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Boosting the effective performance of massively parallel tensor network
state algorithms on hybrid CPU-GPU based architectures via non-Abelian
symmetries [0.0]
Wigner-Eckhart定理に基づく非アベリア対称性関連テンソル代数は、従来のテンソルネットワーク層から完全に分離されている。
我々は、計算複雑性の観点からarXiv:2305.05581で報告された結果に対し、桁違いの性能向上を達成した。
提案手法の有効性能は250-500TFLOPSと推定される。
論文 参考訳(メタデータ) (2023-09-23T07:49:53Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Reduced Precision Floating-Point Optimization for Deep Neural Network
On-Device Learning on MicroControllers [15.37318446043671]
本稿では,MCUクラスデバイス上でのオンデバイス学習(ODL)プリミティブに対して,新しい精度最適化手法を提案する。
我々のアプローチは、シングルコアMCUのための既存のODLソフトウェアフレームワークよりも2桁以上高速である。
論文 参考訳(メタデータ) (2023-05-30T16:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。