Fugu-MT 論文翻訳(概要): Fast and Scalable Computation of the Forward and Inverse Discrete Periodic Radon Transform

論文の概要: Fast and Scalable Computation of the Forward and Inverse Discrete Periodic Radon Transform

arxiv url: http://arxiv.org/abs/2112.13149v1
Date: Fri, 24 Dec 2021 22:33:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-29 11:11:58.461535
Title: Fast and Scalable Computation of the Forward and Inverse Discrete Periodic Radon Transform
Title（参考訳）: 前・逆離散周期ラドン変換の高速かつスケーラブルな計算法
Authors: Cesar Carranza, Daniel Llamocca, and Marios Pattichis
Abstract要約: 離散周期ラドン変換(DPRT)は、投影からの画像再構成を含むアプリケーションで広く使われている。この原稿は、前方および逆DPRTの計算に高速でスケーラブルなアプローチを導入している。
参考スコア（独自算出の注目度）: 2.2940141855172027
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Discrete Periodic Radon Transform (DPRT) has been extensively used in applications that involve image reconstructions from projections. This manuscript introduces a fast and scalable approach for computing the forward and inverse DPRT that is based on the use of: (i) a parallel array of fixed-point adder trees, (ii) circular shift registers to remove the need for accessing external memory components when selecting the input data for the adder trees, (iii) an image block-based approach to DPRT computation that can fit the proposed architecture to available resources, and (iv) fast transpositions that are computed in one or a few clock cycles that do not depend on the size of the input image. As a result, for an $N\times N$ image ($N$ prime), the proposed approach can compute up to $N^{2}$ additions per clock cycle. Compared to previous approaches, the scalable approach provides the fastest known implementations for different amounts of computational resources. For example, for a $251\times 251$ image, for approximately $25\%$ fewer flip-flops than required for a systolic implementation, we have that the scalable DPRT is computed 36 times faster. For the fastest case, we introduce optimized architectures that can compute the DPRT and its inverse in just $2N+\left\lceil \log_{2}N\right\rceil+1$ and $2N+3\left\lceil \log_{2}N\right\rceil+B+2$ cycles respectively, where $B$ is the number of bits used to represent each input pixel. On the other hand, the scalable DPRT approach requires more 1-bit additions than for the systolic implementation and provides a trade-off between speed and additional 1-bit additions. All of the proposed DPRT architectures were implemented in VHDL and validated using an FPGA implementation.
Abstract（参考訳）: 離散周期ラドン変換(DPRT)は、投影からの画像再構成を含むアプリケーションで広く使われている。この原稿では、以下の方法に基づいた前方および逆dprtを計算するための高速でスケーラブルなアプローチを紹介している。 (i)固定点加算木の並列配列 (ii) 加算器ツリーの入力データを選択する際に外部メモリコンポーネントにアクセスする必要をなくすための円形シフトレジスタ。 (iii)提案するアーキテクチャを利用可能なリソースに適合させるdprt計算に対する画像ブロックに基づくアプローチ (4)入力画像のサイズに依存しない1または数回のクロックサイクルで計算される高速なトランスポジション。結果として、$N\times N$ image(N$ prime)の場合、提案手法はクロックサイクル当たりの$N^{2}$加算を計算することができる。従来のアプローチと比較して、スケーラブルなアプローチは、さまざまな計算リソースに対して最も高速な実装を提供する。例えば、251\times 251$の画像では、systolicの実装で必要とされるよりも約25\%少ないflip-flopsで、スケーラブルなdprtは36倍高速に計算できる。最も高速な場合、DPRTとその逆をそれぞれ2N+\lceil \log_{2}N\right\rceil+1$と2N+3\left\lceil \log_{2}N\right\rceil+B+2$ cyclesで計算できる最適化アーキテクチャを導入します。一方、拡張性のあるDPRTアプローチでは、systolic実装よりも1ビットの追加が必要であり、スピードと1ビットの追加の間のトレードオフを提供する。提案したDPRTアーキテクチャはすべてVHDLで実装され、FPGA実装を用いて検証された。

関連論文リスト

Accelerated Rotation-Invariant Convolution for UAV Image Segmentation [36.23556720064733]
本稿では,GPU最適化回転不変畳み込みフレームワークを提案する。対称回転フィルタ間の構造化データ共有を利用して,メモリトラフィックと計算冗長性を大幅に低減した多方向畳み込みを実現する。大規模なベンチマークでは、提案された畳み込みはCUDNNよりも20～55%高速なトレーニングと15～45%低消費電力を実現している。
論文参考訳（メタデータ） (2025-12-09T18:30:00Z)
GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。 GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文参考訳（メタデータ） (2025-11-28T07:26:45Z)
FFT-based Dynamic Subspace Selection for Low-Rank Adaptive Optimization of Large Language Models [49.397861654088636]
低次元空間へのSVD/QRベースの勾配射影を近似する2段階の手順を提案する。当社の戦略はランタイムの高速化とメモリ使用量の削減を,さまざまなモデルサイズで最大25%削減できることが示されています。
論文参考訳（メタデータ） (2025-05-23T14:37:00Z)
M-ary Precomputation-Based Accelerated Scalar Multiplication Algorithms for Enhanced Elliptic Curve Cryptography [2.8614337550669324]
本稿では,M-aryプレ計算に基づくスカラー乗算アルゴリズムを提案し,計算効率とメモリ使用量の両方を最適化することを目的とした。 ElGamal暗号化とNS3ベースの通信シミュレーションの実験は、その有効性を検証する。バイナリ最適化された変種は、secp384r1で通信時間を22.1%削減し、secp521r1でシミュレーション時間を25.4%短縮する。
論文参考訳（メタデータ） (2025-05-03T15:18:54Z)
Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文参考訳（メタデータ） (2025-03-13T03:56:22Z)
A High-Speed Hardware Algorithm for Modulus Operation and its Application in Prime Number Calculation [0.0]
提案アルゴリズムは加算演算,減算演算,論理演算,ビットシフト演算のみを用いる。暗号化アプリケーションにおけるスケーラビリティの課題に対処する。このアルゴリズムを50,000までの素数計算に適用すると、実用性と性能上の利点が示される。
論文参考訳（メタデータ） (2024-07-17T13:24:52Z)
Optimal Rates for $O(1)$-Smooth DP-SCO with a Single Epoch and Large Batches [12.184984662899868]
相関凸最適化(SCO)問題を再考する。 DP-SCO(ポリログ因子まで)の最適速度を1つのエポックで達成するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-04T18:59:42Z)
Video Frame Interpolation with Many-to-many Splatting and Spatial Selective Refinement [83.60486465697318]
本稿では,フレームを効率的に補間するM2Mスプレイティングフレームワークを提案する。入力フレームペアごとに、M2Mは任意の数のフレーム間を補間する際の計算オーバーヘッドが極小である。フレキシブルな空間選択リファインメント(Spatial Selective Refinement)コンポーネントを導入して,M2M++フレームワークを拡張した。
論文参考訳（メタデータ） (2023-10-29T09:09:32Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods [75.34939761152587]
2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムとして機能する。本稿では,$varepsilon$加法精度で最適な輸送を計算できるスケーラブルな一階最適化法を提案する。
論文参考訳（メタデータ） (2023-01-30T15:46:39Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-13T02:44:05Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
Fast 2D Convolutions and Cross-Correlations Using Scalable Architectures [2.2940141855172027]
基本的な考え方は、2次元の畳み込みとクロス相関を変換領域内の1次元の畳み込みとクロス相関の集合にマッピングすることである。このアプローチでは、スケーラブルなアーキテクチャを使用して、最新のFPGAやZynq-SOCデバイスに組み込むことができる。
論文参考訳（メタデータ） (2021-12-24T22:34:51Z)
VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。 textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文参考訳（メタデータ） (2021-05-04T04:10:48Z)
Accelerated FBP for computed tomography image reconstruction [1.0266928164137636]
フィルタバックプロジェクション (FBP) は, 許容品質を示す断層画像再構成において一般的に用いられる手法である。本稿では,アルゴリズムの計算複雑性を$Theta(N2log N)$に減らし,フーリエ空間を回避した加算演算を提案する。
論文参考訳（メタデータ） (2020-07-13T10:16:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。