Fugu-MT 論文翻訳(概要): HOAA: Hybrid Overestimating Approximate Adder for Enhanced Performance Processing Engine

論文の概要: HOAA: Hybrid Overestimating Approximate Adder for Enhanced Performance Processing Engine

arxiv url: http://arxiv.org/abs/2408.00806v1
Date: Mon, 29 Jul 2024 15:47:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-05 15:40:20.127387
Title: HOAA: Hybrid Overestimating Approximate Adder for Enhanced Performance Processing Engine
Title（参考訳）: HOAA: 高性能処理エンジンのためのハイブリッド過大評価近似加算器
Authors: Omkar Kokane, Prabhat Sati, Mukul Lokhande, Santosh Kumar Vishvakarma,
Abstract要約: 新規な Plus One Adder設計はRCA鎖の増分加算器として提案され、入力 A, B, Cin と並行して、過剰 1 のフル加算器が組み込まれている。 Plus One Adderは動的に再構成可能なHOAAに統合され、正確なオーバー見積モードと近似オーバー見積モード間の実行時のインターオペラビリティを実現する。提案手法では,面積効率が21%向上し,消費電力が33%減少した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents the Hybrid Overestimating Approximate Adder designed to enhance the performance in processing engines, specifically focused on edge AI applications. A novel Plus One Adder design is proposed as an incremental adder in the RCA chain, incorporating a Full Adder with an excess 1 alongside inputs A, B, and Cin. The design approximates outputs to 2 bit values to reduce hardware complexity and improve resource efficiency. The Plus One Adder is integrated into a dynamically reconfigurable HOAA, allowing runtime interchangeability between accurate and approximate overestimation modes. The proposed design is demonstrated for multiple applications, such as Twos complement subtraction and Rounding to even, and the Configurable Activation function, which are critical components of the Processing engine. Our approach shows 21 percent improvement in area efficiency and 33 percent reduction in power consumption, compared to state of the art designs with minimal accuracy loss. Thus, the proposed HOAA could be a promising solution for resource-constrained environments, offering ideal trade-offs between hardware efficiency vs computational accuracy.
Abstract（参考訳）: 本稿では,エッジAIアプリケーションに特化して,処理エンジンの性能向上を目的としたHybrid Overestating Approximate Adderを提案する。新規な Plus One Adder設計はRCA鎖の増分加算器として提案され、入力 A, B, Cin と並行して、過剰 1 のフル加算器が組み込まれている。この設計は、ハードウェアの複雑さを減らし、リソース効率を向上させるために出力を2ビット値に近似する。 Plus One Adderは動的に再構成可能なHOAAに統合され、正確なオーバー見積モードと近似オーバー見積モード間の実行時のインターオペラビリティを実現する。提案手法は,Twos を補完するサブトラクションやラウンドリング,プロセスエンジンの重要なコンポーネントである Configurable Activation 関数など,複数のアプリケーションに対して実証されている。提案手法では, 精度の低下が最小限に抑えられた最先端設計と比較して, 面積効率が21%向上し, 消費電力が33%低減した。したがって、提案されたHOAAは、ハードウェア効率と計算精度の間の理想的なトレードオフを提供する、リソース制約のある環境のための有望なソリューションである可能性がある。

関連論文リスト

POLARON: Precision-aware On-device Learning and Adaptive Runtime-cONfigurable AI acceleration [0.0]
本研究は,効率的な乗算累積演算を行うSIMD対応マルチ精度MACエンジンを提案する。このアーキテクチャは、計算精度をワークロードの感度に合わせるための層適応的精度戦略を取り入れている。その結果,PDPは最大で2倍,資源使用量は3倍に改善した。
論文参考訳（メタデータ） (2025-06-10T13:33:02Z)
Accelerating 3D Gaussian Splatting with Neural Sorting and Axis-Oriented Rasterization [14.87046071090259]
3D Gaussian Splatting (3DGS) は、最近、高品質で効率的なビュー合成において大きな注目を集めている。アルゴリズムの性能は素晴らしいが、リソースに制約のあるデバイスのリアルタイムレンダリングは、厳しい電力と地域予算のために依然として大きな課題だ。
論文参考訳（メタデータ） (2025-06-08T10:14:54Z)
Efficiency, Expressivity, and Extensibility in a Close-to-Metal NPU Programming Interface [0.9199464917832796]
この作業は、NPUパフォーマンスエンジニアのためのツールキットであるIRONを使用して、デザイナの効率を向上させることを目的としている。我々はIRONに新しい洗練されたプログラミング構造を含むプログラマインタフェースを更新する。分析によると、コードの行数の平均が26%減少し、さまざまな設計のためのHalsteadメトリクスが減少している。
論文参考訳（メタデータ） (2025-04-25T15:43:50Z)
IMPLY-based Approximate Full Adders for Efficient Arithmetic Operations in Image Processing and Machine Learning [0.5497663232622965]
我々は2つのSAPPI(Serial APProximate IMPLY-based full adder)を提案する。我々の設計では、正確なアルゴリズムと比較してステップ数を39%-41%削減し、エネルギー消費を39%-42%削減する。提案手法は、MNISTデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)に適用した場合、最大296mJ(21%)の省エネと13億(20%)の計算ステップを削減できることを示す。
論文参考訳（メタデータ） (2024-12-20T13:36:40Z)
BEExformer: A Fast Inferencing Binarized Transformer with Early Exits [2.7651063843287718]
BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。 BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。 EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
論文参考訳（メタデータ） (2024-12-06T17:58:14Z)
CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文参考訳（メタデータ） (2024-11-25T07:56:13Z)
HASN: Hybrid Attention Separable Network for Efficient Image Super-resolution [5.110892180215454]
単一画像の超高解像度化のための軽量な手法は、限られたハードウェアリソースのために優れた性能を達成した。その結果, 各ブロックの残差接続により, モデルストレージと計算コストが増大することが判明した。我々は,基本的特徴抽出モジュールとして,奥行き分離可能な畳み込み,完全連結層,アクティベーション関数を用いる。
論文参考訳（メタデータ） (2024-10-13T14:00:21Z)
Any Image Restoration with Efficient Automatic Degradation Adaptation [132.81912195537433]
本研究は, 各種劣化の相似性を有効かつ包括的修復に活用し, 共同埋設を実現する統一的な方法を提案する。我々のネットワークは、モデルの複雑さをトレーニング可能なパラメータで約82%、FLOPで約85%削減しつつ、新しいSOTAレコードを設定している。
論文参考訳（メタデータ） (2024-07-18T10:26:53Z)
Co-Designing Binarized Transformer and Hardware Accelerator for Efficient End-to-End Edge Deployment [3.391499691517567]
トランスフォーマーモデルはAIタスクに革命をもたらしたが、その大きなサイズはリソース制約やレイテンシクリティカルなエッジデバイスへの実際のデプロイメントを妨げる。本稿では, アルゴリズム, ハードウェア, 共同最適化の3つの側面から, トランスフォーマーのエンドツーエンド配置を効率的に行うための設計手法を提案する。実験の結果,2.14-49.37倍のスループット向上と3.72-88.53倍のエネルギー効率を実現した。
論文参考訳（メタデータ） (2024-07-16T12:36:10Z)
ReduceFormer: Attention with Tensor Reduction by Summation [4.985969607297595]
注意を払って効率よく最適化されたモデルのファミリーであるReduceeFormerを紹介します。 ReduceFormerは、reduceやement-wise multiplicationといった単純な操作のみを活用するため、アーキテクチャが大幅に単純化され、推論性能が向上した。提案するモデルファミリは,計算資源とメモリ帯域幅が限られているエッジデバイスや,高いスループットを求めるクラウドコンピューティングに適している。
論文参考訳（メタデータ） (2024-06-11T17:28:09Z)
Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision [52.80792724919329]
本稿では,2次元画像と3次元点雲の微調整を改善するためのAdapter-Xという新しいフレームワークを提案する。 2D画像と3Dポイントの雲のモードで完全な微調整をし、パラメータが大幅に少ない、すなわち2Dと3Dの分類タスクにおいて、オリジナルのトレーニング可能なパラメータのわずか0.20%と1.88%で、初めて性能を上回った。
論文参考訳（メタデータ） (2024-06-05T08:26:44Z)
Pruning for Improved ADC Efficiency in Crossbar-based Analog In-memory Accelerators [9.169425049927554]
クロスバー型アナログインメモリアーキテクチャはディープニューラルネットワーク(DNN)の高速化に魅力的であるクロスバー出力の通信にはアナログ・デジタル変換器(ADC)が必要である。 ADCは各クロスバー処理ユニットのエネルギーと面積の大部分を消費する。 ADC固有の非効率性を目標とするクロスバー調整プルーニングの動機付けを行う。
論文参考訳（メタデータ） (2024-03-19T18:26:45Z)
Point Transformer V3: Simpler, Faster, Stronger [88.80496333515325]
本稿では,ポイントクラウド処理における精度と効率のトレードオフを克服することに焦点を当てる。本稿では,特定のメカニズムの精度よりもシンプルさと効率を優先するポイントトランスフォーマーV3(PTv3)を提案する。 PTv3は、屋内と屋外の両方のシナリオにまたがる20以上の下流タスクで最先端の結果を得る。
論文参考訳（メタデータ） (2023-12-15T18:59:59Z)
HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文参考訳（メタデータ） (2023-09-11T05:17:55Z)
HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文参考訳（メタデータ） (2022-11-30T05:31:45Z)
An Empirical Study of Adder Neural Networks for Object Detection [67.64041181937624]
加算ニューラルネットワーク(AdderNets)は、追加操作のみを伴う画像分類において、優れたパフォーマンスを示している。本稿では,オブジェクト検出のためのAdderNetsを実証研究する。
論文参考訳（メタデータ） (2021-12-27T11:03:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。