論文の概要: Fast and Scalable Computation of the Forward and Inverse Discrete
Periodic Radon Transform
- arxiv url: http://arxiv.org/abs/2112.13149v1
- Date: Fri, 24 Dec 2021 22:33:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-29 11:11:58.461535
- Title: Fast and Scalable Computation of the Forward and Inverse Discrete
Periodic Radon Transform
- Title(参考訳): 前・逆離散周期ラドン変換の高速かつスケーラブルな計算法
- Authors: Cesar Carranza, Daniel Llamocca, and Marios Pattichis
- Abstract要約: 離散周期ラドン変換(DPRT)は、投影からの画像再構成を含むアプリケーションで広く使われている。
この原稿は、前方および逆DPRTの計算に高速でスケーラブルなアプローチを導入している。
- 参考スコア(独自算出の注目度): 2.2940141855172027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Discrete Periodic Radon Transform (DPRT) has been extensively used in
applications that involve image reconstructions from projections. This
manuscript introduces a fast and scalable approach for computing the forward
and inverse DPRT that is based on the use of: (i) a parallel array of
fixed-point adder trees, (ii) circular shift registers to remove the need for
accessing external memory components when selecting the input data for the
adder trees, (iii) an image block-based approach to DPRT computation that can
fit the proposed architecture to available resources, and (iv) fast
transpositions that are computed in one or a few clock cycles that do not
depend on the size of the input image. As a result, for an $N\times N$ image
($N$ prime), the proposed approach can compute up to $N^{2}$ additions per
clock cycle. Compared to previous approaches, the scalable approach provides
the fastest known implementations for different amounts of computational
resources. For example, for a $251\times 251$ image, for approximately $25\%$
fewer flip-flops than required for a systolic implementation, we have that the
scalable DPRT is computed 36 times faster. For the fastest case, we introduce
optimized architectures that can compute the DPRT and its inverse in just
$2N+\left\lceil \log_{2}N\right\rceil+1$ and $2N+3\left\lceil
\log_{2}N\right\rceil+B+2$ cycles respectively, where $B$ is the number of bits
used to represent each input pixel. On the other hand, the scalable DPRT
approach requires more 1-bit additions than for the systolic implementation and
provides a trade-off between speed and additional 1-bit additions. All of the
proposed DPRT architectures were implemented in VHDL and validated using an
FPGA implementation.
- Abstract(参考訳): 離散周期ラドン変換(DPRT)は、投影からの画像再構成を含むアプリケーションで広く使われている。
この原稿では、以下の方法に基づいた前方および逆dprtを計算するための高速でスケーラブルなアプローチを紹介している。
(i)固定点加算木の並列配列
(ii) 加算器ツリーの入力データを選択する際に外部メモリコンポーネントにアクセスする必要をなくすための円形シフトレジスタ。
(iii)提案するアーキテクチャを利用可能なリソースに適合させるdprt計算に対する画像ブロックに基づくアプローチ
(4)入力画像のサイズに依存しない1または数回のクロックサイクルで計算される高速なトランスポジション。
結果として、$N\times N$ image(N$ prime)の場合、提案手法はクロックサイクル当たりの$N^{2}$加算を計算することができる。
従来のアプローチと比較して、スケーラブルなアプローチは、さまざまな計算リソースに対して最も高速な実装を提供する。
例えば、251\times 251$の画像では、systolicの実装で必要とされるよりも約25\%少ないflip-flopsで、スケーラブルなdprtは36倍高速に計算できる。
最も高速な場合、DPRTとその逆をそれぞれ2N+\lceil \log_{2}N\right\rceil+1$と2N+3\left\lceil \log_{2}N\right\rceil+B+2$ cyclesで計算できる最適化アーキテクチャを導入します。
一方、拡張性のあるDPRTアプローチでは、systolic実装よりも1ビットの追加が必要であり、スピードと1ビットの追加の間のトレードオフを提供する。
提案したDPRTアーキテクチャはすべてVHDLで実装され、FPGA実装を用いて検証された。
関連論文リスト
- A High-Speed Hardware Algorithm for Modulus Operation and its Application in Prime Number Calculation [0.0]
提案アルゴリズムは加算演算,減算演算,論理演算,ビットシフト演算のみを用いる。
暗号化アプリケーションにおけるスケーラビリティの課題に対処する。
このアルゴリズムを50,000までの素数計算に適用すると、実用性と性能上の利点が示される。
論文 参考訳(メタデータ) (2024-07-17T13:24:52Z) - Optimal Rates for $O(1)$-Smooth DP-SCO with a Single Epoch and Large Batches [12.184984662899868]
相関凸最適化(SCO)問題を再考する。
DP-SCO(ポリログ因子まで)の最適速度を1つのエポックで達成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-04T18:59:42Z) - Video Frame Interpolation with Many-to-many Splatting and Spatial
Selective Refinement [83.60486465697318]
本稿では,フレームを効率的に補間するM2Mスプレイティングフレームワークを提案する。
入力フレームペアごとに、M2Mは任意の数のフレーム間を補間する際の計算オーバーヘッドが極小である。
フレキシブルな空間選択リファインメント(Spatial Selective Refinement)コンポーネントを導入して,M2M++フレームワークを拡張した。
論文 参考訳(メタデータ) (2023-10-29T09:09:32Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods [75.34939761152587]
2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムとして機能する。
本稿では,$varepsilon$加法精度で最適な輸送を計算できるスケーラブルな一階最適化法を提案する。
論文 参考訳(メタデータ) (2023-01-30T15:46:39Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Fast 2D Convolutions and Cross-Correlations Using Scalable Architectures [2.2940141855172027]
基本的な考え方は、2次元の畳み込みとクロス相関を変換領域内の1次元の畳み込みとクロス相関の集合にマッピングすることである。
このアプローチでは、スケーラブルなアーキテクチャを使用して、最新のFPGAやZynq-SOCデバイスに組み込むことができる。
論文 参考訳(メタデータ) (2021-12-24T22:34:51Z) - Accelerated FBP for computed tomography image reconstruction [1.0266928164137636]
フィルタバックプロジェクション (FBP) は, 許容品質を示す断層画像再構成において一般的に用いられる手法である。
本稿では,アルゴリズムの計算複雑性を$Theta(N2log N)$に減らし,フーリエ空間を回避した加算演算を提案する。
論文 参考訳(メタデータ) (2020-07-13T10:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。