論文の概要: Fast 2D Convolutions and Cross-Correlations Using Scalable Architectures
- arxiv url: http://arxiv.org/abs/2112.13150v1
- Date: Fri, 24 Dec 2021 22:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-29 10:40:30.908407
- Title: Fast 2D Convolutions and Cross-Correlations Using Scalable Architectures
- Title(参考訳): スケーラブルアーキテクチャを用いた高速2次元畳み込みと相互相関
- Authors: Cesar Carranza, Daniel Llamocca, and Marios Pattichis
- Abstract要約: 基本的な考え方は、2次元の畳み込みとクロス相関を変換領域内の1次元の畳み込みとクロス相関の集合にマッピングすることである。
このアプローチでは、スケーラブルなアーキテクチャを使用して、最新のFPGAやZynq-SOCデバイスに組み込むことができる。
- 参考スコア(独自算出の注目度): 2.2940141855172027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The manuscript describes fast and scalable architectures and associated
algorithms for computing convolutions and cross-correlations. The basic idea is
to map 2D convolutions and cross-correlations to a collection of 1D
convolutions and cross-correlations in the transform domain. This is
accomplished through the use of the Discrete Periodic Radon Transform (DPRT)
for general kernels and the use of SVD-LU decompositions for low-rank kernels.
The approach uses scalable architectures that can be fitted into modern FPGA
and Zynq-SOC devices. Based on different types of available resources, for
$P\times P$ blocks, 2D convolutions and cross-correlations can be computed in
just $O(P)$ clock cycles up to $O(P^2)$ clock cycles. Thus, there is a
trade-off between performance and required numbers and types of resources. We
provide implementations of the proposed architectures using modern programmable
devices (Virtex-7 and Zynq-SOC). Based on the amounts and types of required
resources, we show that the proposed approaches significantly outperform
current methods.
- Abstract(参考訳): この原稿は、高速でスケーラブルなアーキテクチャと、畳み込みと相互相関を計算するための関連するアルゴリズムを記述している。
基本的な考え方は、2次元の畳み込みとクロス相関を変換領域内の1次元の畳み込みとクロス相関の集合にマッピングすることである。
これは、一般的なカーネルに離散周期ラドン変換(DPRT)を使用し、低ランクカーネルにSVD-LU分解を使用することで達成される。
このアプローチではスケーラブルなアーキテクチャを使用し、最新のFPGAやZynq-SOCデバイスに組み込める。
利用可能なリソースの種類によっては、$P\times P$ blocks、$O(P)$ clock cycles to $O(P^2)$ clock cyclesで2D畳み込みと相互相関を計算することができる。
したがって、パフォーマンスと必要な数とリソースの種類との間にトレードオフがある。
本稿では,最新のプログラマブルデバイス(Virtex-7とZynq-SOC)を用いて提案アーキテクチャの実装を行う。
必要なリソースの量と種類に基づいて,提案手法が現在の手法を大きく上回ることを示す。
関連論文リスト
- CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Robust Fully-Asynchronous Methods for Distributed Training over General
Architecture [12.271245147370202]
分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。
本稿では,R-FAST (Fully-Asynchronous Gradient Tracking Method) を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:36:40Z) - Compiling Quantum Circuits for Dynamically Field-Programmable Neutral
Atoms Array Processors [5.475873482700239]
動的にフィールドプログラマブルな量子ビットアレイ(DPQA)が量子情報処理のための有望なプラットフォームとして登場した。
本稿では,複数の配列を含むDPQAアーキテクチャについて考察する。
DPQAをベースとしたコンパイル回路では,グリッド固定アーキテクチャに比べてスケーリングオーバヘッドが小さくなることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:13:10Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - FInC Flow: Fast and Invertible $k \times k$ Convolutions for Normalizing
Flows [2.156373334386171]
可逆畳み込みは、表現的正規化フローベース生成モデルを構築する上で不可欠な要素である。
我々は、$k倍の畳み込み層とDeep Normalizing Flowアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-01-23T04:31:03Z) - Fast Time-Evolution of Matrix-Product States using the QR decomposition [0.0]
特異値分解(SVD)の代わりにQR分解に基づく切り出し方式を用いた時間発展ブロックデシメーションアルゴリズムの提案とベンチマークを行う。
この修正により、物理ヒルベルト空間の次元$d$を$d3$から$d2$に縮小する。
量子クロックモデルにおける大域的クエンチのベンチマークシミュレーションでは、最大3桁のスピードアップをA100 GPU上でQRとSVDベースの更新と比較する。
論文 参考訳(メタデータ) (2022-12-19T19:00:05Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Fast and Scalable Computation of the Forward and Inverse Discrete
Periodic Radon Transform [2.2940141855172027]
離散周期ラドン変換(DPRT)は、投影からの画像再構成を含むアプリケーションで広く使われている。
この原稿は、前方および逆DPRTの計算に高速でスケーラブルなアプローチを導入している。
論文 参考訳(メタデータ) (2021-12-24T22:33:13Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。