論文の概要: CARMEN: CORDIC-Accelerated Resource-Efficient Multi-Precision Inference Engine for Deep Learning
- arxiv url: http://arxiv.org/abs/2605.06878v1
- Date: Thu, 07 May 2026 19:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.577951
- Title: CARMEN: CORDIC-Accelerated Resource-Efficient Multi-Precision Inference Engine for Deep Learning
- Title(参考訳): CARMEN: 深層学習のためのCORDICによる資源高速化多精度推論エンジン
- Authors: Sonu Kumar, Mukul Lokhande, Santosh Kumar Vishvakarma, Adam Teman,
- Abstract要約: 本稿では,資源効率の高いディープラーニング推論のための実行時適応型CORDIC高速化多精度ベクトルエンジンを提案する。
このアーキテクチャは、低リソースの繰り返しCORDICベースのMACユニットと、時間多重化マルチアクティベーション関数ブロックを統合している。
PynqZ2上のFPGA配置は、リアルタイムオブジェクト検出のために0.03Wで154.6msのレイテンシを検証する。
- 参考スコア(独自算出の注目度): 0.13048920509133807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents CARMEN, a runtime-adaptive, CORDIC-accelerated multi-precision vector engine for resource-efficient deep learning inference. The key insight is that CORDIC iteration depth directly governs computational accuracy, enabling dynamic switching between approximate and accurate execution modes without hardware modification. The architecture integrates a low-resource iterative CORDIC-based MAC unit with a time-multiplexed multi-activation function block, supporting flexible 8/16-bit precision and high hardware utilization. ASIC implementation in 28 nm CMOS achieves up to 33% reduction in computation cycles and 21% power savings per MAC stage; a 256-PE configuration delivers 4.83 TOPS/mm2 compute density and 11.67 TOPS/W energy efficiency. FPGA deployment on PynqZ2 validates 154.6 ms latency at 0.43 W for real-time object detection.
- Abstract(参考訳): 本稿では,資源効率の高いディープラーニング推論のための実行時適応型CORDIC高速化多精度ベクトルエンジンであるCARMENを提案する。
重要な洞察は、CORDICイテレーションの深さが直接計算精度を制御し、ハードウェア修正なしで近似モードと正確な実行モードを動的に切り替えることを可能にすることである。
このアーキテクチャは、低リソースの繰り返しCORDICベースのMACユニットと、時間多重化されたマルチアクティベーション関数ブロックを統合し、柔軟な8/16ビットの精度と高いハードウェア利用をサポートする。
28nm CMOSでのASIC実装は計算サイクルを最大33%削減し、MACステージあたり21%の省電力を実現し、256-PE構成は4.83TOPS/mm2の計算密度と11.67TOPS/Wのエネルギー効率を提供する。
PynqZ2上のFPGA配置は、リアルタイムオブジェクト検出のために0.03Wで154.6msのレイテンシを検証する。
関連論文リスト
- EULER-ADAS: Energy-Efficient & SIMD-Unified Logarithmic-Posit Engine for Precision-Reconfigurable Approximate ADAS Acceleration [0.12314765641075437]
EULER-ADASは、エネルギー効率と信頼性を意識したADASアクセラレーションのためのSIMD対応の対数有界型ニューラルネットワークエンジンである。
提案したデータパスは,有界正規化ポジット表現,段階適応対数マンティサ乗算とビットトランケーション,SIMD共有クイア蓄積経路を組み合わせたものである。
FPGAの実装により、提案された構成により、LUT数を41.4%、遅延を76.1%、パワーを71.9%削減できる。
論文 参考訳(メタデータ) (2026-05-07T19:20:10Z) - BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - CORVET: A CORDIC-Powered, Resource-Frugal Mixed-Precision Vector Processing Engine for High-Throughput AIoT applications [0.0]
本稿では、エッジAIアクセラレーションのための低リソース繰り返しCORDICベースのMACユニットを備えた、ランタイム適応型、パフォーマンス向上ベクタエンジンを提案する。
提案した設計により、近似モードと正確なモードの動的再構成が可能となり、幅広いワークロードの遅延精度トレードオフを利用することができる。
ASIC実装の結果、各MACステージは256-PE構成で最大33%の時間と21%の電力を節約できることがわかった。
論文 参考訳(メタデータ) (2026-02-22T16:51:17Z) - QUILL: An Algorithm-Architecture Co-Design for Cache-Local Deformable Attention [12.542462936966844]
QUILLはスケジュール対応のアクセラレータで、変形可能な注意をキャッシュフレンドリでシングルパスの作業に変換する。
融合したMSDeformAttnエンジンは、中間体をこぼすことなく1回のパスで、ソフトマックス、アグリゲーション、最終的なプロジェクション(W'm)を実行する。
論文 参考訳(メタデータ) (2025-11-17T18:34:04Z) - Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - UnIT: Scalable Unstructured Inference-Time Pruning for MAC-efficient Neural Inference on MCUs [1.9626657740463982]
UnIT (Unstructured Inference-Time pruning) は、推論中に不要な乗算(MAC)操作を動的に識別し、スキップする軽量な手法である。
プルーニング決定を軽量比較に変換し、乗算をしきい値チェックと近似分割に置き換える。
UNITは11.02%から82.03%のMAC削減、27.30%から84.19%の高速推論、27.33%から84.38%の低エネルギー化を実現している。
論文 参考訳(メタデータ) (2025-07-10T16:12:06Z) - CORDIC Is All You Need [0.18184027690235535]
線形MAC計算と非線形反復活性化関数のためのCORDICブロックを用いたパイプラインアーキテクチャを提案する。
このアプローチでは、Reconfigurable Processing Engine(RPE)ベースのsystolic配列に重点を置いている。
FPGAの実装により、リソースの節約に2.5ドル、以前の作業に比較して3ドルまで削減できる。
論文 参考訳(メタデータ) (2025-03-04T12:23:27Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z) - Accuracy Booster: Enabling 4-bit Fixed-point Arithmetic for DNN Training [31.515532976570643]
算術密度を最大化しながら、トレーニング精度を維持するにはシングルレベルスケーリングが十分であることを示す。
本稿では,4ビットマンティッサをトレーニング中の算術演算の99%以上に使用する混合マンティッサHBFP手法であるAccuracy Boosterを提案する。
論文 参考訳(メタデータ) (2022-11-19T16:17:11Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。