論文の概要: Fast Implementation of Morphological Filtering Using ARM NEON Extension
- arxiv url: http://arxiv.org/abs/2002.09474v1
- Date: Wed, 19 Feb 2020 12:55:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 14:40:05.009876
- Title: Fast Implementation of Morphological Filtering Using ARM NEON Extension
- Title(参考訳): ARM NEON拡張を用いた形態フィルタの高速化
- Authors: Elena Limonova and Arseny Terekhin and Dmitry Nikolaev and Vladimir
Arlazarov
- Abstract要約: ARMプロセッサにおける形態素画像フィルタリングの高速化の可能性を検討する。
ARM SIMD拡張NEONを用いた浸食・拡張の高速化を提案する。
浸食および浸食の最終実施時の効率は3倍に向上した。
- 参考スコア(独自算出の注目度): 0.9135092203041721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we consider speedup potential of morphological image filtering
on ARM processors. Morphological operations are widely used in image analysis
and recognition and their speedup in some cases can significantly reduce
overall execution time of recognition. More specifically, we propose fast
implementation of erosion and dilation using ARM SIMD extension NEON. These
operations with the rectangular structuring element are separable. They were
implemented using the advantages of separability as sequential horizontal and
vertical passes. Each pass was implemented using van Herk/Gil-Werman algorithm
for large windows and low-constant linear complexity algorithm for small
windows. Final implementation was improved with SIMD and used a combination of
these methods. We also considered fast transpose implementation of 8x8 and
16x16 matrices using ARM NEON to get additional computational gain for
morphological operations. Experiments showed 3 times efficiency increase for
final implementation of erosion and dilation compared to van Herk/Gil-Werman
algorithm without SIMD, 5.7 times speedup for 8x8 matrix transpose and 12 times
speedup for 16x16 matrix transpose compared to transpose without SIMD.
- Abstract(参考訳): 本稿では,ARMプロセッサにおける形態素画像フィルタリングの高速化の可能性を検討する。
形態素演算は画像解析や認識に広く使われており、その高速化は認識全体の実行時間を大幅に削減することができる。
具体的には,ARM SIMD拡張NEONを用いた浸食とダイレーションの高速実装を提案する。
矩形構造要素を持つこれらの操作は分離可能である。
シーケンシャルな水平と垂直のパスとして分離性の利点を用いて実装された。
各パスはvan herk/gil-wermanアルゴリズムで大窓と小窓の低定数線形複雑性アルゴリズムで実装された。
最終的な実装はsimdで改善され、これらの手法の組み合わせを使用した。
また,ARM NEON を用いた 8x8 および 16x16 行列の高速変換実装も検討した。
実験では, SIMDのないvan Herk/Gil-Wermanアルゴリズムと比較して, 浸食およびダイレーションの最終実施時の効率は3倍, 8x8行列では5.7倍, 16x16行列では12倍に向上した。
関連論文リスト
- Fast, Scalable, Warm-Start Semidefinite Programming with Spectral
Bundling and Sketching [53.91395791840179]
我々は、大規模なSDPを解くための、証明可能な正確で高速でスケーラブルなアルゴリズムであるUnified Spectral Bundling with Sketching (USBS)を提案する。
USBSは、20億以上の決定変数を持つインスタンス上で、最先端のスケーラブルなSDP解決器よりも500倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2023-12-19T02:27:22Z) - KyberMat: Efficient Accelerator for Matrix-Vector Polynomial Multiplication in CRYSTALS-Kyber Scheme via NTT and Polyphase Decomposition [20.592217626952507]
CRYSTAL-Kyber (Kyber) は、標準化プロセス中に選択された暗号鍵カプセル化機構 (KEM) の1つである。
本稿では,Kyberアーキテクチャのレイテンシとスループットの制約に対する最適化について述べる。
論文 参考訳(メタデータ) (2023-10-06T22:57:25Z) - Efficient Additions and Montgomery Reductions of Large Integers for SIMD [2.362288417229025]
本稿では,512ビット以上の整数に対してモンゴメリー還元と加算を行うための効率的なアルゴリズムを提案する。
新しい加算アルゴリズムは、より小さな加算を用いて大きな整数の追加をシミュレートし、すぐに同じキャリーセットを生成する。
モンゴメリー還元の場合、シリアル乗算はSIMD拡張を用いて効果的に計算できるプリ計算に置き換えられる。
論文 参考訳(メタデータ) (2023-08-31T03:44:49Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。
実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。
本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-13T02:44:05Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Strong Simulation of Linear Optical Processes [2.3131309703965135]
我々のアルゴリズムは、$m$モード干渉計の入力で$n$光子を与えられた場合、可能な全ての出力状態の確率を計算する。
これは指数係数によって永久的手法より優れる。
論文 参考訳(メタデータ) (2022-06-21T17:27:17Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z) - Concurrent Alternating Least Squares for multiple simultaneous Canonical
Polyadic Decompositions [2.3513645401551333]
我々は,Matlabにインターフェースを提供するConcurrent ALSアルゴリズムとライブラリを紹介する。
我々は,同じテンソルの複数の分解をアルゴリズムレベルで融合させて算術強度を増大させる方法を示す。
人工データセットと実データセットの実験結果は、算術強度の増加による完了までの時間短縮を示す。
論文 参考訳(メタデータ) (2020-10-09T16:55:46Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - Parallel 3DPIFCM Algorithm for Noisy Brain MRI Images [3.3946853660795884]
本稿では,GPUを用いて並列環境で3DPIFCMと呼ばれる[1]で開発したアルゴリズムについて述べる。
この結果から,並列バージョンはGAIFCMアルゴリズムより最大27倍高速,GAIFCMアルゴリズムより68倍高速であることがわかった。
論文 参考訳(メタデータ) (2020-02-05T20:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。