Fugu-MT 論文翻訳(概要): Scalable and Effective Arithmetic Tree Generation for Adder and Multiplier Designs

論文の概要: Scalable and Effective Arithmetic Tree Generation for Adder and Multiplier Designs

arxiv url: http://arxiv.org/abs/2405.06758v1
Date: Fri, 10 May 2024 18:22:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-14 20:15:33.458376
Title: Scalable and Effective Arithmetic Tree Generation for Adder and Multiplier Designs
Title（参考訳）: アダおよび乗算器設計のためのスケーラブルで効果的な算数木生成
Authors: Yao Lai, Jinxin Liu, David Z. Pan, Ping Luo,
Abstract要約: 我々は、加算器と乗算器という、最も一般的で基本的な2つの算術モジュールに焦点を当てる。我々は、強化学習技術を用いて、それらの算術木構造を最適化する。我々のアプローチはスピードを増し、サイズを最大49%、サイズを45%削減します。
参考スコア（独自算出の注目度）: 34.14349345891184
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Across a wide range of hardware scenarios, the computational efficiency and physical size of the arithmetic units significantly influence the speed and footprint of the overall hardware system. Nevertheless, the effectiveness of prior arithmetic design techniques proves inadequate, as it does not sufficiently optimize speed and area, resulting in a reduced processing rate and larger module size. To boost the arithmetic performance, in this work, we focus on the two most common and fundamental arithmetic modules: adders and multipliers. We cast the design tasks as single-player tree generation games, leveraging reinforcement learning techniques to optimize their arithmetic tree structures. Such a tree generation formulation allows us to efficiently navigate the vast search space and discover superior arithmetic designs that improve computational efficiency and hardware size within just a few hours. For adders, our approach discovers designs of 128-bit adders that achieve Pareto optimality in theoretical metrics. Compared with the state-of-the-art PrefixRL, our method decreases computational delay and hardware size by up to 26% and 30%, respectively. For multipliers, when compared to RL-MUL, our approach increases speed and reduces size by as much as 49% and 45%. Moreover, the inherent flexibility and scalability of our method enable us to deploy our designs into cutting-edge technologies, as we show that they can be seamlessly integrated into 7nm technology. We believe our work will offer valuable insights into hardware design, further accelerating speed and reducing size through the refined search space and our tree generation methodologies. See our introduction video at https://bit.ly/ArithmeticTree. Codes are released at https://github.com/laiyao1/ArithmeticTree.
Abstract（参考訳）: 幅広いハードウェアシナリオにおいて、演算ユニットの計算効率と物理サイズは、ハードウェア全体の速度とフットプリントに大きな影響を与えている。それにもかかわらず、事前の算術設計手法の有効性は、速度と面積を十分に最適化せず、処理速度が低下し、モジュールサイズが大きくなるため、不十分であることが証明されている。算術性能を向上させるため、本研究では、加算器と乗算器の2つの最も一般的で基本的な算術モジュールに焦点を当てる。本研究では,木構造を最適化する強化学習技術を活用し,単一プレイヤー木生成ゲームとしてデザインタスクを投入した。このようなツリー生成の定式化により、膨大な探索空間を効率的にナビゲートし、計算効率とハードウェアサイズをわずか数時間で向上させる優れた演算設計を見つけることができる。加算器については,理論測定値においてパレート最適性を実現する128ビット加算器の設計を探索する。現状のPrefixRLと比較して,計算遅延とハードウェアサイズを最大で26%,ハードウェアサイズで30%削減する。乗算器の場合、RL-MULと比較して、我々の手法は速度を増し、最大で49%、サイズを45%削減する。さらに,本手法のフレキシビリティとスケーラビリティにより,最先端技術に設計を展開できるようになり,それらを7nm技術にシームレスに統合できることが示されている。われわれの研究は、ハードウェア設計に関する貴重な洞察を提供し、改良された検索空間とツリー生成手法を通じて、さらなる高速化とサイズ削減を提供すると信じている。紹介ビデオはhttps://bit.ly/ArithmeticTree.com。コードはhttps://github.com/laiyao1/ArithmeticTree.comで公開されている。

関連論文リスト

Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation [129.45368843861917]
我々は、レイヤ間の効率的なメモリ共有のためのシンプルで効果的なメカニズムであるGated Memory Unit(GMU)を紹介した。これは、GMUを組み込んでSambaベースのセルフデコーダからメモリ読み出し状態を共有するデコーダ・ハイブリッド・デコーダアーキテクチャである。
論文参考訳（メタデータ） (2025-07-09T07:27:00Z)
Scalable Thermodynamic Second-order Optimization [0.0]
我々は、K-FAC(Kron-ed approximate curvature)と呼ばれる2階熱力学曲線の高速化にコンピュータを利用するスケーラブルなアルゴリズムを提案する。数値実験により、有意な量子化雑音下であっても、二階最適化の利点を保存できることが示されている。我々は,現実的なハードウェア特性に基づいて,大規模ビジョンとグラフ問題に対する大幅な高速化を予測した。
論文参考訳（メタデータ） (2025-02-12T17:44:40Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
An Efficient Matrix Multiplication Algorithm for Accelerating Inference in Binary and Ternary Neural Networks [8.779871128906787]
我々はディープニューラルネットワーク(DNN)の推論時間とメモリ効率を改善するアルゴリズムを提案する。推論のボトルネック演算として行列乗法に着目する。我々の実験は推論時間で5.24倍のスピードアップを示す。
論文参考訳（メタデータ） (2024-11-10T04:56:14Z)
Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文参考訳（メタデータ） (2024-07-12T17:37:49Z)
On the Efficiency of Convolutional Neural Networks [0.0]
コブネットが使用する膨大な計算と相まって、ディープラーニングの研究者も効率性に興味を持つようになった。単一カーネルにおける残差ブロックのすべての層を実装するために,ブロック融合アルゴリズムを考案した。ブロック融合カーネルを用いたConvFirstモデルでは,演算の複雑さが小さく,計算効率が向上する。
論文参考訳（メタデータ） (2024-04-04T17:39:41Z)
Accelerating Machine Learning Primitives on Commodity Hardware [0.0]
本稿では,Deep Neural Networks (DNN) における一般行列乗算 (GEMM) に基づく畳み込みよりも効率的な代替手段として,スライディングウィンドウ畳み込み手法について広範な研究を行う。この結果から,Sliding Window 計算カーネルは CPU 上でも専用ハードウェアアクセラレータ上でも GEMM ベースの畳み込みよりも優れていることが示唆された。これにより、特別なハードウェアを必要とせずに、低消費電力および低メモリデバイスにAIが広く採用される可能性がある。
論文参考訳（メタデータ） (2023-10-08T16:26:18Z)
Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文参考訳（メタデータ） (2022-09-20T09:28:26Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
Ps and Qs: Quantization-aware pruning for efficient low latency neural network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文参考訳（メタデータ） (2021-02-22T19:00:05Z)
Towards Efficient and Scalable Acceleration of Online Decision Tree Learning on FPGA [20.487660974785943]
ビッグデータの時代において、従来の決定木誘導アルゴリズムは大規模なデータセットを学習するのに適していない。本稿では,現在最先端のオンライン学習モデルの1つであるHoeffdingツリーの帰納化を改善するために,新しいQuantileベースのアルゴリズムを提案する。フィールドプログラミング可能なゲートアレイ上に,高性能,ハードウェア効率,スケーラブルなオンライン決定木学習システムを提案する。
論文参考訳（メタデータ） (2020-09-03T03:23:43Z)
Efficient Computation of Expectations under Spanning Tree Distributions [67.71280539312536]
本稿では,エッジファクター,非プロジェクティブ・スパンニングツリーモデルにおいて,一階期待と二階期待の重要なケースに対する統一アルゴリズムを提案する。我々のアルゴリズムは勾配と期待の基本的な関係を利用しており、効率的なアルゴリズムを導出することができる。
論文参考訳（メタデータ） (2020-08-29T14:58:26Z)
The Limit of the Batch Size [79.8857712299211]
大規模バッチトレーニングは、現在の分散ディープラーニングシステムにとって効率的なアプローチである。本稿では,バッチサイズの限界について検討する。ステップ・バイ・ステップ比較のための詳細な数値最適化手法を提案する。
論文参考訳（メタデータ） (2020-06-15T16:18:05Z)
PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal Matrices [35.90103072918056]
ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題である。本稿では、ハードウェアフレンドリーな構造化DNNモデルの生成と実行のための新しいアプローチであるPermDNNを提案する。
論文参考訳（メタデータ） (2020-04-23T02:26:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。