論文の概要: High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2505.06975v1
- Date: Sun, 11 May 2025 13:18:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.139754
- Title: High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution
- Title(参考訳): 超解像加速のための高周波優先駆動型適応型マスキング
- Authors: Wei Shang, Dongwei Ren, Wanying Zhang, Pengfei Zhu, Qinghua Hu, Wangmeng Zuo,
- Abstract要約: 高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
- 参考スコア(独自算出の注目度): 87.56382172827526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary challenge in accelerating image super-resolution lies in reducing computation while maintaining performance and adaptability. Motivated by the observation that high-frequency regions (e.g., edges and textures) are most critical for reconstruction, we propose a training-free adaptive masking module for acceleration that dynamically focuses computation on these challenging areas. Specifically, our method first extracts high-frequency components via Gaussian blur subtraction and adaptively generates binary masks using K-means clustering to identify regions requiring intensive processing. Our method can be easily integrated with both CNNs and Transformers. For CNN-based architectures, we replace standard $3 \times 3$ convolutions with an unfold operation followed by $1 \times 1$ convolutions, enabling pixel-wise sparse computation guided by the mask. For Transformer-based models, we partition the mask into non-overlapping windows and selectively process tokens based on their average values. During inference, unnecessary pixels or windows are pruned, significantly reducing computation. Moreover, our method supports dilation-based mask adjustment to control the processing scope without retraining, and is robust to unseen degradations (e.g., noise, compression). Extensive experiments on benchmarks demonstrate that our method reduces FLOPs by 24--43% for state-of-the-art models (e.g., CARN, SwinIR) while achieving comparable or better quantitative metrics. The source code is available at https://github.com/shangwei5/AMSR
- Abstract(参考訳): 画像の超解像化を加速する主な課題は、性能と適応性を維持しながら計算を減らすことである。
高周波領域(例えば、エッジ、テクスチャ)が再構成に最も重要であるという観測に触発され、これらの困難領域に動的に集中する加速のためのトレーニング不要適応マスキングモジュールを提案する。
具体的には,まずガウスブラーサブトラクションを用いて高周波成分を抽出し,K平均クラスタリングを用いて2値マスクを適応的に生成し,集中処理を必要とする領域を同定する。
提案手法はCNNとTransformerの両方と容易に統合できる。
CNNベースのアーキテクチャでは、標準的な$3 \times 3$ convolutionsを展開操作に置き換え、その後$1 \times 1$ convolutionsを導入し、マスクで導かれるピクセル単位のスパース計算を可能にします。
Transformerベースのモデルでは、マスクをオーバーラップしないウィンドウに分割し、平均値に基づいてトークンを選択的に処理する。
推論中、不要なピクセルやウィンドウがプルーニングされ、計算が大幅に削減される。
さらに,リトレーニングなしで処理範囲を制御できる拡張ベースのマスク調整をサポートし,ノイズや圧縮などの目立たない劣化に対して頑健である。
ベンチマーク実験により, FLOPsを24~43%削減し, 比較, 測定精度の向上を図った。
ソースコードはhttps://github.com/shangwei5/AMSRで入手できる。
関連論文リスト
- Image Coding for Machines via Feature-Preserving Rate-Distortion Optimization [27.97760974010369]
本稿では,特徴量間の距離を歪み指標として,タスク損失に対する圧縮の影響を低減する手法を提案する。
我々は、ブロックベースのエンコーダを用いて歪み項を計算可能にするために、RDOの定式化を単純化する。
SSEに基づくRDOと比較して、同じコンピュータビジョンの精度で最大10%のビットレートを節約できる。
論文 参考訳(メタデータ) (2025-04-03T02:11:26Z) - FilterViT and DropoutViT [0.0]
我々は、ダウンサンプリングの初期段階で注意に基づくQKV操作を行うViTの強化版を紹介した。
本稿では,フィルタブロックを用いて注目画素を選択するための有能マスクを作成するフィルタアテンション機構を提案する。
このアプローチは、注意に関わるトークンの数を効果的に減らし、計算複雑性を減らし、処理速度を向上する。
論文 参考訳(メタデータ) (2024-10-30T05:38:03Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Coarse-to-Fine Sparse Transformer for Hyperspectral Image Reconstruction [138.04956118993934]
本稿では, サース・トゥ・ファインス・スパース・トランス (CST) を用いた新しいトランス方式を提案する。
HSI再構成のための深層学習にHSI空間を埋め込んだCST
特に,CSTは,提案したスペクトル認識スクリーニング機構(SASM)を粗いパッチ選択に使用し,選択したパッチを,細かなピクセルクラスタリングと自己相似性キャプチャのために,カスタマイズしたスペクトル集約ハッシュ型マルチヘッド自己アテンション(SAH-MSA)に入力する。
論文 参考訳(メタデータ) (2022-03-09T16:17:47Z) - Learning strides in convolutional neural networks [34.20666933112202]
この研究は、学習可能なステップを持つ最初のダウンサンプリング層であるDiffStrideを紹介している。
音声と画像の分類実験は,ソリューションの汎用性と有効性を示す。
論文 参考訳(メタデータ) (2022-02-03T16:03:36Z) - Token Pooling in Vision Transformers [37.11990688046186]
視覚変換器では、自己注意は主要なボトルネックではなく、例えば、計算の80%以上が完全に接続された層に費やされている。
本稿では,画像と中間トークン表現の冗長性を効果的に活用するトークンダウンサンプリング手法Token Poolingを提案する。
実験の結果,Token Poolingは最先端のダウンサンプリングに対する費用対精度のトレードオフを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:22:50Z) - Two-Stage Monte Carlo Denoising with Adaptive Sampling and Kernel Pool [4.194950860992213]
適応的サンプリング戦略に基づく2段階のデノイザーを提案することでモンテカルロレンダリングの問題点に取り組む。
第1段階では,1ピクセル (spp) あたりのサンプルをオンザフライで調整すると同時に,計算を再利用し,適応的に描画された画像に適用した余分なデノナイズカーネルを生成する。
第2段階では,空間-時間安定性を改善するために位置認識プーリングと意味アライメント演算子を設計する。
論文 参考訳(メタデータ) (2021-03-30T07:05:55Z) - DCT-Mask: Discrete Cosine Transform Mask Representation for Instance
Segmentation [50.70679435176346]
本稿では、離散コサイン変換(DCT)を用いて、高分解能二元格子マスクをコンパクトなベクトルに符号化することで、新しいマスク表現を提案する。
DCT-Maskと呼ばれるこの手法は、ほとんどのピクセルベースのインスタンスセグメンテーション手法に簡単に統合できる。
論文 参考訳(メタデータ) (2020-11-19T15:00:21Z) - LevelSet R-CNN: A Deep Variational Method for Instance Segmentation [79.20048372891935]
現在、多くのアートモデルはMask R-CNNフレームワークに基づいている。
本稿では,両世界の長所を結合したR-CNNを提案する。
我々はCOCOおよびCityscapesデータセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-07-30T17:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。