論文の概要: Hardware-Efficient FPGA Implementation of Sigmoid Function Using Mixed-Radix Hyperbolic Rotation CORDIC
- arxiv url: http://arxiv.org/abs/2604.23547v1
- Date: Sun, 26 Apr 2026 05:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.425154
- Title: Hardware-Efficient FPGA Implementation of Sigmoid Function Using Mixed-Radix Hyperbolic Rotation CORDIC
- Title(参考訳): 混合無線双曲回転CORDICを用いたシグモイド関数のハードウェア効率よいFPGA実装
- Authors: Chintan Panchal, Ankur Changela, Mohendra Roy,
- Abstract要約: 本稿では,混在型CORDICアーキテクチャを用いたシグモイドアクティベーション関数のハードウェア効率のFPGA実装について述べる。
この設計は16ビットの固定点表現を用いてXilinx Virtex-7 FPGA上で実現されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Efficient hardware implementation of nonlinear activation functions is a crucial task in deploying artificial neural networks on resource-constrained and edge devices such as Field-Programmable Gate Arrays (FPGAs). The sigmoid activation function is widely used for probabilistic output, binary classification, and gating mechanisms in recurrent neural networks, despite its reliance on exponential computations. This paper presents a hardware-efficient FPGA implementation of the sigmoid activation function using a mixed-radix CORDIC-based architecture. The proposed approach leverages the mathematical relationship between the sigmoid and hyperbolic tangent functions. The input range is normalized to 1, enabling the corresponding tanh computation to operate within a reduced range of 0.5, which significantly improves convergence behavior. To achieve high accuracy with minimal hardware overhead, a modified mixed-radix hyperbolic rotation CORDIC (MR-HRC) algorithm combining radix-2 and radix-4 iterations is introduced. The initial radix-2 stage ensures stable convergence, while the subsequent radix-4 stage accelerates convergence without requiring scale-factor compensation. In the final stage, a radix-2 linear vectoring CORDIC (R2-LVC) is used to compute the hyperbolic tangent by dividing hyperbolic sine and cosine values derived from the MR-HRC algorithm. The entire architecture is fully pipelined and implemented on an FPGA. The design is realized on an Xilinx Virtex-7 FPGA using a 16-bit fixed-point representation. Experimental results demonstrate a significant reduction in hardware utilization, requiring only 835 logic slices with zero DSP usage. Additionally, the design achieves a mean absolute error of 4.23 10^-4, outperforming several recent sigmoid implementations.
- Abstract(参考訳): 非線形アクティベーション関数の効率的なハードウェア実装は、FPGA(Field-Programmable Gate Arrays)のようなリソース制約やエッジデバイスに人工ニューラルネットワークをデプロイする上で重要なタスクである。
シグモイド活性化関数は、指数計算に依存するにもかかわらず、繰り返しニューラルネットワークにおける確率的出力、二分分類、ゲーティング機構に広く用いられている。
本稿では,混在型CORDICアーキテクチャを用いたシグモイドアクティベーション関数のハードウェア効率のFPGA実装について述べる。
提案手法はシグモイド関数と双曲型接点関数の数学的関係を利用する。
入力範囲は1に正規化され、対応するタンの計算は0.5の範囲内で動作し、収束挙動を大幅に改善する。
ハードウェアオーバーヘッドを最小限に抑えるため、radix-2とradix-4の繰り返しを組み合わせたMR-HRCアルゴリズムが導入された。
最初のラディクス2段階は安定収束を保証し、続くラディックス4段階はスケールファクタ補正を必要とせずに収束を加速する。
最終段階では、MR-HRCアルゴリズムから得られる双曲正弦とコサイン値を分割して双曲接点を計算するために、ラディックス-2線形ベクトル CORDIC (R2-LVC) を用いる。
アーキテクチャ全体がパイプライン化され、FPGA上に実装されている。
この設計は16ビットの固定点表現を用いてXilinx Virtex-7 FPGA上で実現されている。
実験の結果、ハードウェア使用率が大幅に低下し、DSP使用量ゼロのロジックスライスを835個必要としていた。
さらに、設計は4.23 10^-4の平均的な絶対誤差を達成し、近年のシグモイドの実装よりも優れている。
関連論文リスト
- RSR-core: A High-Performance Engine for Low-Bit Matrix-Vector Multiplication [11.676571773958145]
行列ベクトル乗算(Matrix-vector multiplication)は、ニューラルネットワーク、ベクトルデータベース、および大規模言語モデルにおける基本的な構成要素である。
近年の研究では、モデルの重みの低ビット量子化について検討されており、活性化を高精度に保ちながら、行列は二進数(1ビット)または三進数1.58ビット)の値で表される。
並行して、冗長セグメント削減のようなアルゴリズムは、低ビット行列ベクトル乗算を加速する理論的保証を提供する。
論文 参考訳(メタデータ) (2026-03-29T00:55:14Z) - DInf-Grid: A Neural Differential Equation Solver with Differentiable Feature Grids [73.28614344779076]
我々は、微分方程式(DE)を効率的に解くための微分可能グリッドベース表現を提案する。
その結果,座標法よりも5~20倍の高速化を実現し,差分方程式を数秒または数分で解き,精度とコンパクト性を維持した。
論文 参考訳(メタデータ) (2026-01-15T18:59:57Z) - GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - TC-GS: A Faster Gaussian Splatting Module Utilizing Tensor Cores [8.422911585027924]
本稿では,アルゴリズムに依存しない汎用モジュールTC-GSを統合し,Core(TCU)を3DGSに適用する。
提案手法は,既存のガウス加速度アルゴリズムを2.18倍高速化し,最大5.6倍の高速化を実現するとともに,レンダリング品質を維持している。
論文 参考訳(メタデータ) (2025-05-30T16:58:18Z) - Implementing Neural Network-Based Equalizers in a Coherent Optical
Transmission System Using Field-Programmable Gate Arrays [3.1543509940301946]
我々は、コヒーレント光伝送システムにおける非線形性補償のための、リカレントおよびフィードフォワードニューラルネットワーク(NN)ベースの等化器のオフラインFPGA実現について述べる。
主な結果は、性能比較、アクティベーション関数の実装方法の分析、ハードウェアの複雑さに関するレポートの3つに分けられる。
論文 参考訳(メタデータ) (2022-12-09T07:28:45Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Graph-adaptive Rectified Linear Unit for Graph Neural Networks [64.92221119723048]
グラフニューラルネットワーク(GNN)は、従来の畳み込みを非ユークリッドデータでの学習に拡張することで、目覚ましい成功を収めた。
本稿では,周辺情報を利用した新しいパラメトリックアクティベーション機能であるグラフ適応整流線形ユニット(GRELU)を提案する。
我々は,GNNのバックボーンと様々な下流タスクによって,プラグアンドプレイGRELU法が効率的かつ効果的であることを示す包括的実験を行った。
論文 参考訳(メタデータ) (2022-02-13T10:54:59Z) - Scalable Optimal Transport in High Dimensions for Graph Distances,
Embedding Alignment, and More [7.484063729015126]
最適輸送のためのコスト行列の2つの効率的な対数線形時間近似を提案する。
これらの近似は、複雑な高次元空間に対してもよく機能するエントロピー規則化OTに対する一般的な対数線形時間アルゴリズムを可能にする。
グラフ距離回帰のために,グラフニューラルネットワーク(GNN)と拡張シンクホーンを組み合わせたグラフトランスポートネットワーク(GTN)を提案する。
論文 参考訳(メタデータ) (2021-07-14T17:40:08Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - SPEC2: SPECtral SParsE CNN Accelerator on FPGAs [31.31419913907224]
我々は、スペクトルCNNを練習し、加速する最初の研究であるSPEC2を提案する。
スパースカーネルへの効率的なランダムアクセスが可能なFPGA上に最適化されたパイプラインアーキテクチャを設計する。
得られたアクセラレータは、VGG16の最先端FPGA実装と比較して最大24倍のスループットを実現している。
論文 参考訳(メタデータ) (2019-10-16T23:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。