論文の概要: A Fast Parallel Median Filtering Algorithm Using Hierarchical Tiling
- arxiv url: http://arxiv.org/abs/2507.19926v1
- Date: Sat, 26 Jul 2025 12:06:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.466397
- Title: A Fast Parallel Median Filtering Algorithm Using Hierarchical Tiling
- Title(参考訳): 階層型タイリングを用いた高速並列メディアフィルタリングアルゴリズム
- Authors: Louis Sugy,
- Abstract要約: メディアフィルタリングは、シャープエッジを保持しながらノイズを取り除くためにデジタル画像処理で広く使われている。
Sortingベースのアルゴリズムは、小さなカーネルで優れているが、カーネルの直径が大きくなるとスケーラビリティが低下する。
本稿では,階層的タイリングによるソート問題の分離性を活用し,冗長な計算を最小化する新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Median filtering is a non-linear smoothing technique widely used in digital image processing to remove noise while retaining sharp edges. It is particularly well suited to removing outliers (impulse noise) or granular artifacts (speckle noise). However, the high computational cost of median filtering can be prohibitive. Sorting-based algorithms excel with small kernels but scale poorly with increasing kernel diameter, in contrast to constant-time methods characterized by higher constant factors but better scalability, such as histogram-based approaches or the 2D wavelet matrix. This paper introduces a novel algorithm, leveraging the separability of the sorting problem through hierarchical tiling to minimize redundant computations. We propose two variants: a data-oblivious selection network that can operate entirely within registers, and a data-aware version utilizing random-access memory. These achieve per-pixel complexities of $O(k \log(k))$ and $O(k)$, respectively, for a $k \times k$ kernel - unprecedented for sorting-based methods. Our CUDA implementation is up to 5 times faster than the current state of the art on a modern GPU and is the fastest median filter in most cases for 8-, 16-, and 32-bit data types and kernels from $3 \times 3$ to $75 \times 75$.
- Abstract(参考訳): メディアフィルタリングは、シャープエッジを保持しながらノイズを取り除くためにデジタル画像処理で広く使われている非線形スムース化技術である。
特に外れ音(インパルスノイズ)や粒状物(スペックルノイズ)を除去するのに適している。
しかし、中央フィルタリングの計算コストが高いことは禁忌である。
ソルティングベースのアルゴリズムは、小さなカーネルと競合するが、カーネルの直径が大きくなるにつれてスケールが低下するが、ヒストグラムベースのアプローチや2Dウェーブレット行列のような、より高い定数係数を持つ、より優れたスケーラビリティを持つ定数時間法とは対照的である。
本稿では,階層的タイリングによるソート問題の分離性を活用し,冗長な計算を最小化する新しいアルゴリズムを提案する。
本稿では、レジスタ内で完全に動作可能なデータ公開選択ネットワークと、ランダムアクセスメモリを利用したデータ認識バージョンという2つのバリエーションを提案する。
これらは$O(k \log(k))$と$O(k)$のピクセル単位の複雑さを、それぞれ$k \times k$ kernelに対して達成する。
我々のCUDA実装は、最新のGPUの最先端よりも最大5倍高速で、8ビット、16ビット、32ビットのデータ型とカーネルでは3ドルから75ドルまでの最も高速な中央値フィルタである。
関連論文リスト
- Fast Isotropic Median Filtering [0.0]
メディアフィルタリングは計算画像処理の基盤となっている。
本手法は,任意のビット深度データ,任意のカーネルサイズ,任意の凸カーネル形状を効率的に操作する。
論文 参考訳(メタデータ) (2025-05-28T23:38:21Z) - A Greedy Hierarchical Approach to Whole-Network Filter-Pruning in CNNs [2.188091591747149]
全体ネットワークフィルタプルーニングアルゴリズムは、各層から異なるフィルタ分を抽出するので、柔軟性が向上する。
本稿では,全ネットワークフィルタプルーニングにおける2段階階層的手法を提案する。
本稿では,ResNext101のRAM要件を7.6GBから1.5GBに削減し,CIFAR-10の精度を損なうことなくFLOPSの94%削減を実現する。
論文 参考訳(メタデータ) (2024-08-22T03:59:57Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Efficient Image Denoising by Low-Rank Singular Vector Approximations of Geodesics' Gramian Matrix [2.3499129784547654]
画像の騒音汚染は、人々の間で準標準的期待をもたらす。
画像のデノイングは、必要不可欠な前処理ステップです。
本稿では,測地学のグラミアン行列の特異ベクトルを主に利用した多様体に基づくノイズフィルタリング法を提案する。
論文 参考訳(メタデータ) (2022-09-27T01:03:36Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Scalable Differentially Private Clustering via Hierarchically Separated
Trees [82.69664595378869]
我々は,最大$O(d3/2log n)cdot OPT + O(k d2 log2 n / epsilon2)$,$epsilon$はプライバシ保証であることを示す。
最悪の場合の保証は、最先端のプライベートクラスタリング手法よりも悪いが、提案するアルゴリズムは実用的である。
論文 参考訳(メタデータ) (2022-06-17T09:24:41Z) - Gaussian Process Bandit Optimization with Few Batches [49.896920704012395]
有限腕バンディットアルゴリズムにインスパイアされたバッチアルゴリズムを導入する。
O(log T)$ batches in time horizon $T$.sqrtTgamma_T)$ using $O(log T)$ batches in time horizon。
さらに,アルゴリズムの修正版を提案し,バッチ数によって後悔がどう影響するかを特徴付ける。
論文 参考訳(メタデータ) (2021-10-15T00:54:04Z) - RAMA: A Rapid Multicut Algorithm on GPU [23.281726932718232]
本稿では,マルチカット問題(マグニチュード相関クラスタリング)に対する高並列原始双対アルゴリズムを提案する。
我々のアルゴリズムは、最適距離を推定する原始解と双対下界を生成する。
最大$mathcalO(108)$変数を数秒で、小さな原始双対ギャップで、非常に大規模なベンチマーク問題を解くことができる。
論文 参考訳(メタデータ) (2021-09-04T10:33:59Z) - VersaGNN: a Versatile accelerator for Graph neural networks [81.1667080640009]
我々は,超効率的なサイストリックアレイベースの多用途ハードウェアアクセラレータである textitVersaGNN を提案する。
textitVersaGNNは平均3712$times$ speedup with 1301.25$times$ energy reduction on CPU、35.4$times$ speedup with 17.66$times$ energy reduction on GPUを達成している。
論文 参考訳(メタデータ) (2021-05-04T04:10:48Z) - Streaming Coresets for Symmetric Tensor Factorization [9.181791777532608]
ストリーミング環境でテンソルを効率的に分解する方法を示す。
本稿では,オンラインフィルタリングとカーネル化という2つの新しいアルゴリズム手法を紹介する。
単一トピックモデリング学習におけるアルゴリズムの適用例を示す。
論文 参考訳(メタデータ) (2020-06-01T19:55:34Z) - Private Stochastic Convex Optimization: Optimal Rates in Linear Time [74.47681868973598]
本研究では,凸損失関数の分布から得られた個体群損失を最小化する問題について検討する。
Bassilyらによる最近の研究は、$n$のサンプルを与えられた過剰な人口損失の最適境界を確立している。
本稿では,余剰損失に対する最適境界を達成するとともに,$O(minn, n2/d)$グラデーション計算を用いて凸最適化アルゴリズムを導出する2つの新しい手法について述べる。
論文 参考訳(メタデータ) (2020-05-10T19:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。