論文の概要: ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators
- arxiv url: http://arxiv.org/abs/2603.08722v1
- Date: Thu, 12 Feb 2026 13:19:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.494184
- Title: ALADIN: Accuracy-Latency-Aware Design-space Inference Analysis for Embedded AI Accelerators
- Title(参考訳): ALADIN: 組み込みAI加速器の精度を考慮した設計空間推論分析
- Authors: T. Baldi, D. Casini, A. Biondi,
- Abstract要約: ALADINは、混合精度量子化ニューラルネットワーク(QNN)のための精度の高い設計空間推論分析フレームワークである。
これにより、ターゲットプラットフォームへのデプロイを必要とせずに、精度、レイテンシ、リソース消費にわたる推論ボトルネックと設計トレードオフの評価と分析が可能になる。
ALADINは、AIワークロードに特化したRISC-Vベースのプラットフォームのサイクル精度シミュレータを使用して検証される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The inference of deep neural networks (DNNs) on resource-constrained embedded systems introduces non-trivial trade-offs among model accuracy, computational latency, and hardware limitations, particularly when real-time constraints must be satisfied. This paper presents ALADIN, an accuracy-latency-aware design-space inference analysis framework for mixed-precision quantized neural networks (QNNs) targeting scratchpad-based AI accelerators. ALADIN enables the evaluation and analysis of inference bottlenecks and design trade-offs across accuracy, latency, and resource consumption without requiring deployment on the target platform, thereby significantly reducing development time and cost. The framework introduces a progressive refinement process that transforms a canonical QONNX model into platform-aware representations by integrating both platform-independent implementation details and hardware-specific characteristics. ALADIN is validated using a cycle-accurate simulator of a RISC-V based platform specialized for AI workloads, demonstrating its effectiveness as a tool for quantitative inference analysis and hardware-software co-design. Experimental results highlight how architectural decisions and mixed-precision quantization strategies impact accuracy, latency, and resource usage, and show that these effects can be precisely evaluated and compared using ALADIN, while also revealing subtle optimization tensions.
- Abstract(参考訳): リソース制約の組込みシステムにおけるディープニューラルネットワーク(DNN)の推論は、特にリアルタイムの制約を満たす必要がある場合、モデル精度、計算レイテンシ、ハードウェア制限の間の非自明なトレードオフをもたらす。
本稿では、スクラッチパッドベースのAIアクセラレータをターゲットとした、混合精度量子化ニューラルネットワーク(QNN)のための高精度遅延対応設計空間推論分析フレームワークであるALADINを提案する。
ALADINは、ターゲットプラットフォームへのデプロイを必要とせずに、精度、レイテンシ、リソース消費にわたる推論ボトルネックと設計トレードオフの評価と分析を可能にし、開発時間とコストを大幅に削減する。
このフレームワークは、標準QONNXモデルをプラットフォームに依存しない実装の詳細とハードウェア固有の特徴の両方を統合することで、プラットフォーム対応の表現に変換する進歩的な改善プロセスを導入している。
ALADINは、AIワークロードに特化したRISC-Vベースのプラットフォームのサイクル精度シミュレータを使用して検証されている。
実験結果は、アーキテクチャ決定と混合精度量子化戦略が精度、レイテンシ、リソース使用量にどのように影響するかを強調し、これらの効果がALADINを使用して正確に評価され、比較可能であることを示しながら、微妙な最適化の緊張を明らかにしている。
関連論文リスト
- Interpretable Hybrid Deep Q-Learning Framework for IoT-Based Food Spoilage Prediction with Synthetic Data Generation and Hardware Validation [0.5417521241272645]
インテリジェントでリアルタイムな腐敗予測システムの必要性は、現代のIoT駆動食品サプライチェーンにおいて重要になっている。
本稿では,Long Short-Term Memory(LSTM)とRecurrent Neural Networks(RNN)を統合したハイブリッド強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-22T12:59:48Z) - Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - Tuning for Trustworthiness -- Balancing Performance and Explanation Consistency in Neural Network Optimization [49.567092222782435]
我々は,異なる特徴帰属法間の合意として定義された,XAI整合性という新しい概念を紹介する。
予測性能と説明のバランスをとる多目的最適化フレームワークを構築した。
本研究は、トレードオフゾーンバランス性能損失とXAI整合性による強靭性向上のモデルについて、今後の研究基盤を提供する。
論文 参考訳(メタデータ) (2025-05-12T13:19:14Z) - Evaluating Single Event Upsets in Deep Neural Networks for Semantic Segmentation: an embedded system perspective [1.474723404975345]
本稿では,組み込みディープニューラルネットワーク(DNN)のロバスト性評価について述べる。
本研究は,様々なエンコーダデコーダモデルの層間およびビット間感度をソフトエラーに精査することにより,セグメント化DNNのSEUに対する脆弱性を徹底的に調査する。
本稿では,資源制約によるデプロイメントに適したメモリや計算コストを伴わない,実用的な軽量なエラー軽減手法を提案する。
論文 参考訳(メタデータ) (2024-12-04T18:28:38Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Exploration of Activation Fault Reliability in Quantized Systolic
Array-Based DNN Accelerators [0.8796261172196743]
本稿では,量子化がモデル精度,アクティベーション障害の信頼性,ハードウェア効率に与える影響を総合的に評価するための包括的方法論を提案する。
さまざまな量子化対応技術、フォールトインジェクション、ハードウェア実装を適用可能な、完全に自動化されたフレームワークが導入された。
確立されたベンチマーク実験は、信頼性、ハードウェア性能、ネットワーク精度に対する分析フローと量子化の深い影響を実証している。
論文 参考訳(メタデータ) (2024-01-17T12:55:17Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - AttNS: Attention-Inspired Numerical Solving For Limited Data Scenarios [51.94807626839365]
限定データによる微分方程式の解法として,注目型数値解法(AttNS)を提案する。
AttNSは、モデル一般化とロバスト性の向上におけるResidual Neural Networks(ResNet)のアテンションモジュールの効果にインスパイアされている。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - A Graph Deep Learning Framework for High-Level Synthesis Design Space
Exploration [11.154086943903696]
High-Level Synthesisは、アプリケーション固有の高速プロトタイピングのためのソリューションである。
本稿では,加速性能とハードウェアコストを共同で予測するグラフニューラルネットワークHLSを提案する。
提案手法は,一般的なシミュレータと同等の精度で予測できることを示す。
論文 参考訳(メタデータ) (2021-11-29T18:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。