Fugu-MT 論文翻訳(概要): Fast 2D Convolutions and Cross-Correlations Using Scalable Architectures

論文の概要: Fast 2D Convolutions and Cross-Correlations Using Scalable Architectures

arxiv url: http://arxiv.org/abs/2112.13150v1
Date: Fri, 24 Dec 2021 22:34:51 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-29 10:40:30.908407
Title: Fast 2D Convolutions and Cross-Correlations Using Scalable Architectures
Title（参考訳）: スケーラブルアーキテクチャを用いた高速2次元畳み込みと相互相関
Authors: Cesar Carranza, Daniel Llamocca, and Marios Pattichis
Abstract要約: 基本的な考え方は、2次元の畳み込みとクロス相関を変換領域内の1次元の畳み込みとクロス相関の集合にマッピングすることである。このアプローチでは、スケーラブルなアーキテクチャを使用して、最新のFPGAやZynq-SOCデバイスに組み込むことができる。
参考スコア（独自算出の注目度）: 2.2940141855172027
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The manuscript describes fast and scalable architectures and associated algorithms for computing convolutions and cross-correlations. The basic idea is to map 2D convolutions and cross-correlations to a collection of 1D convolutions and cross-correlations in the transform domain. This is accomplished through the use of the Discrete Periodic Radon Transform (DPRT) for general kernels and the use of SVD-LU decompositions for low-rank kernels. The approach uses scalable architectures that can be fitted into modern FPGA and Zynq-SOC devices. Based on different types of available resources, for $P\times P$ blocks, 2D convolutions and cross-correlations can be computed in just $O(P)$ clock cycles up to $O(P^2)$ clock cycles. Thus, there is a trade-off between performance and required numbers and types of resources. We provide implementations of the proposed architectures using modern programmable devices (Virtex-7 and Zynq-SOC). Based on the amounts and types of required resources, we show that the proposed approaches significantly outperform current methods.
Abstract（参考訳）: この原稿は、高速でスケーラブルなアーキテクチャと、畳み込みと相互相関を計算するための関連するアルゴリズムを記述している。基本的な考え方は、2次元の畳み込みとクロス相関を変換領域内の1次元の畳み込みとクロス相関の集合にマッピングすることである。これは、一般的なカーネルに離散周期ラドン変換(DPRT)を使用し、低ランクカーネルにSVD-LU分解を使用することで達成される。このアプローチではスケーラブルなアーキテクチャを使用し、最新のFPGAやZynq-SOCデバイスに組み込める。利用可能なリソースの種類によっては、$P\times P$ blocks、$O(P)$ clock cycles to $O(P^2)$ clock cyclesで2D畳み込みと相互相関を計算することができる。したがって、パフォーマンスと必要な数とリソースの種類との間にトレードオフがある。本稿では,最新のプログラマブルデバイス(Virtex-7とZynq-SOC)を用いて提案アーキテクチャの実装を行う。必要なリソースの量と種類に基づいて,提案手法が現在の手法を大きく上回ることを示す。

関連論文リスト

Reducing the Computational Cost Scaling of Tensor Network Algorithms via Field-Programmable Gate Array Parallelism [2.801791858783479]
フィールドプログラマブルゲートアレイ(FPGA)はモンテカルロ法のようなアルゴリズムの計算スケーリングを改善するために最近利用されている。 2つの代表テンソルネットワークアルゴリズムの計算効率を大幅に向上させるために,FPGAを用いた並列テンソルネットワークの設計を提案する。
論文参考訳（メタデータ） (2026-02-05T17:16:44Z)
PolyKAN: Efficient Fused GPU Operators for Polynomial Kolmogorov-Arnold Network Variants [10.239332579225522]
Kolmogorov-Arnold Networks (KAN) はマルチレイヤ・パーセプトロンよりも高い表現能力と高い解釈性を約束している。我々は,kanとその変種の最初のオープンソース実装であるPolyKANというGPUアクセラレーション演算子ライブラリを提案する。
論文参考訳（メタデータ） (2025-11-18T19:05:16Z)
Systems and Algorithms for Convolutional Multi-Hybrid Language Models at Scale [68.6602625868888]
本稿では,2つの簡単な観測に基づいて,畳み込み型マルチハイブリッドアーキテクチャを提案する。ハイブリッドモデルのオペレータは、インコンテキストリコール、マルチトークンリコール、圧縮などのトークン操作タスクにカスタマイズできる。我々は、最適化されたトランスフォーマーの1.2倍から2.9倍、以前の世代のハイブリッドの1.1倍から1.4倍の速さでエンドツーエンドを訓練する。
論文参考訳（メタデータ） (2025-02-25T19:47:20Z)
Communication-Efficient, 2D Parallel Stochastic Gradient Descent for Distributed-Memory Optimization [2.2596489829928452]
この研究は、1D $s$-step SGD と Averaging (FedAvg) を用いた 1D Federated SGD の作業を一般化し、2D 並列 SGD 法 (HybridSGD) を生成する。 C++ と MPI で全てのアルゴリズムを実装し,Cray EX スーパーコンピュータシステム上での性能評価を行う。
論文参考訳（メタデータ） (2025-01-13T17:56:39Z)
Flash Inference: Near Linear Time Inference for Long Convolution Sequence Models and Beyond [7.280765035096294]
本稿では,LCSMの正確な推定速度を準線形$O(Llog2L)$ timeに高速化する手法を提案する。私たちはHyenaのコンセプト実装の証明を提供し、標準推論よりも1.6倍のエンドツーエンドの改善が得られます。
論文参考訳（メタデータ） (2024-10-16T19:23:46Z)
Accelerating Diffusion Models with Parallel Sampling: Inference at Sub-Linear Time Complexity [11.71206628091551]
拡散モデルは、訓練と評価に費用がかかるため、拡散モデルの推論コストを削減することが大きな目標である。並列サンプリング手法であるHh2024parallelを用いて拡散モデルを高速化する実験的な成功に触発されて,サンプリングプロセスを各ブロック内に並列化可能なPicard繰り返しを持つ$mathcalO(1)$ブロックに分割することを提案する。我々の結果は、高速で効率的な高次元データサンプリングの可能性に光を当てた。
論文参考訳（メタデータ） (2024-05-24T23:59:41Z)
TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文参考訳（メタデータ） (2024-04-15T06:01:48Z)
VEXIR2Vec: An Architecture-Neutral Embedding Framework for Binary Similarity [36.341893383865745]
VexIR2Vecはアーキテクチャニュートラル中間表現(IR)であるVEX-IRを用いたバイナリ類似性のためのアプローチである我々は、知識グラフ埋め込み技術を用いて、IRの実体レベルで表現の語彙を教師なしで学習する。 VexIR2Vecは3.1ドル-3.5ドルで、最も近いベースラインとマグニチュードよりも高速である。
論文参考訳（メタデータ） (2023-12-01T11:22:10Z)
CORE: Common Random Reconstruction for Distributed Optimization with Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文参考訳（メタデータ） (2023-09-23T08:45:27Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Compiling Quantum Circuits for Dynamically Field-Programmable Neutral Atoms Array Processors [5.012570785656963]
動的にフィールドプログラマブルな量子ビットアレイ(DPQA)が量子情報処理のための有望なプラットフォームとして登場した。本稿では,複数の配列を含むDPQAアーキテクチャについて考察する。 DPQAをベースとしたコンパイル回路では,グリッド固定アーキテクチャに比べてスケーリングオーバヘッドが小さくなることを示す。
論文参考訳（メタデータ） (2023-06-06T08:13:10Z)
Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文参考訳（メタデータ） (2022-07-09T09:14:12Z)
Fast and Scalable Computation of the Forward and Inverse Discrete Periodic Radon Transform [2.2940141855172027]
離散周期ラドン変換(DPRT)は、投影からの画像再構成を含むアプリケーションで広く使われている。この原稿は、前方および逆DPRTの計算に高速でスケーラブルなアプローチを導入している。
論文参考訳（メタデータ） (2021-12-24T22:33:13Z)
Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。 DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文参考訳（メタデータ） (2021-07-06T21:59:49Z)
High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文参考訳（メタデータ） (2021-05-09T14:22:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。