論文の概要: Fast 2D Convolutions and Cross-Correlations Using Scalable Architectures
- arxiv url: http://arxiv.org/abs/2112.13150v1
- Date: Fri, 24 Dec 2021 22:34:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-29 10:40:30.908407
- Title: Fast 2D Convolutions and Cross-Correlations Using Scalable Architectures
- Title(参考訳): スケーラブルアーキテクチャを用いた高速2次元畳み込みと相互相関
- Authors: Cesar Carranza, Daniel Llamocca, and Marios Pattichis
- Abstract要約: 基本的な考え方は、2次元の畳み込みとクロス相関を変換領域内の1次元の畳み込みとクロス相関の集合にマッピングすることである。
このアプローチでは、スケーラブルなアーキテクチャを使用して、最新のFPGAやZynq-SOCデバイスに組み込むことができる。
- 参考スコア(独自算出の注目度): 2.2940141855172027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The manuscript describes fast and scalable architectures and associated
algorithms for computing convolutions and cross-correlations. The basic idea is
to map 2D convolutions and cross-correlations to a collection of 1D
convolutions and cross-correlations in the transform domain. This is
accomplished through the use of the Discrete Periodic Radon Transform (DPRT)
for general kernels and the use of SVD-LU decompositions for low-rank kernels.
The approach uses scalable architectures that can be fitted into modern FPGA
and Zynq-SOC devices. Based on different types of available resources, for
$P\times P$ blocks, 2D convolutions and cross-correlations can be computed in
just $O(P)$ clock cycles up to $O(P^2)$ clock cycles. Thus, there is a
trade-off between performance and required numbers and types of resources. We
provide implementations of the proposed architectures using modern programmable
devices (Virtex-7 and Zynq-SOC). Based on the amounts and types of required
resources, we show that the proposed approaches significantly outperform
current methods.
- Abstract(参考訳): この原稿は、高速でスケーラブルなアーキテクチャと、畳み込みと相互相関を計算するための関連するアルゴリズムを記述している。
基本的な考え方は、2次元の畳み込みとクロス相関を変換領域内の1次元の畳み込みとクロス相関の集合にマッピングすることである。
これは、一般的なカーネルに離散周期ラドン変換(DPRT)を使用し、低ランクカーネルにSVD-LU分解を使用することで達成される。
このアプローチではスケーラブルなアーキテクチャを使用し、最新のFPGAやZynq-SOCデバイスに組み込める。
利用可能なリソースの種類によっては、$P\times P$ blocks、$O(P)$ clock cycles to $O(P^2)$ clock cyclesで2D畳み込みと相互相関を計算することができる。
したがって、パフォーマンスと必要な数とリソースの種類との間にトレードオフがある。
本稿では,最新のプログラマブルデバイス(Virtex-7とZynq-SOC)を用いて提案アーキテクチャの実装を行う。
必要なリソースの量と種類に基づいて,提案手法が現在の手法を大きく上回ることを示す。
関連論文リスト
- Flash Inference: Near Linear Time Inference for Long Convolution Sequence Models and Beyond [7.280765035096294]
本稿では,LCSMの正確な推定速度を準線形$O(Llog2L)$ timeに高速化する手法を提案する。
私たちはHyenaのコンセプト実装の証明を提供し、標準推論よりも1.6倍のエンドツーエンドの改善が得られます。
論文 参考訳(メタデータ) (2024-10-16T19:23:46Z) - Accelerating Diffusion Models with Parallel Sampling: Inference at Sub-Linear Time Complexity [11.71206628091551]
拡散モデルは、訓練と評価に費用がかかるため、拡散モデルの推論コストを削減することが大きな目標である。
並列サンプリング手法であるHh2024parallelを用いて拡散モデルを高速化する実験的な成功に触発されて,サンプリングプロセスを各ブロック内に並列化可能なPicard繰り返しを持つ$mathcalO(1)$ブロックに分割することを提案する。
我々の結果は、高速で効率的な高次元データサンプリングの可能性に光を当てた。
論文 参考訳(メタデータ) (2024-05-24T23:59:41Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - VEXIR2Vec: An Architecture-Neutral Embedding Framework for Binary Similarity [36.341893383865745]
VexIR2Vecはアーキテクチャニュートラル中間表現(IR)であるVEX-IRを用いたバイナリ類似性のためのアプローチである
我々は、知識グラフ埋め込み技術を用いて、IRの実体レベルで表現の語彙を教師なしで学習する。
VexIR2Vecは3.1ドル-3.5ドルで、最も近いベースラインとマグニチュードよりも高速である。
論文 参考訳(メタデータ) (2023-12-01T11:22:10Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - Compiling Quantum Circuits for Dynamically Field-Programmable Neutral Atoms Array Processors [5.012570785656963]
動的にフィールドプログラマブルな量子ビットアレイ(DPQA)が量子情報処理のための有望なプラットフォームとして登場した。
本稿では,複数の配列を含むDPQAアーキテクチャについて考察する。
DPQAをベースとしたコンパイル回路では,グリッド固定アーキテクチャに比べてスケーリングオーバヘッドが小さくなることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:13:10Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Fast and Scalable Computation of the Forward and Inverse Discrete
Periodic Radon Transform [2.2940141855172027]
離散周期ラドン変換(DPRT)は、投影からの画像再構成を含むアプリケーションで広く使われている。
この原稿は、前方および逆DPRTの計算に高速でスケーラブルなアプローチを導入している。
論文 参考訳(メタデータ) (2021-12-24T22:33:13Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。