論文の概要: Large Kernel Modulation Network for Efficient Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2508.11893v1
- Date: Sat, 16 Aug 2025 03:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.436899
- Title: Large Kernel Modulation Network for Efficient Image Super-Resolution
- Title(参考訳): 画像超解像のための大規模カーネル変調ネットワーク
- Authors: Quanwei Hu, Yinggan Tang, Xuguang Zhang,
- Abstract要約: Large Kernel Modulation Network (LKMN) は純粋なCNNベースのモデルである。
LKMNには2つのコアコンポーネントがある: Enhanced partial Large Kernel Block (EPLKB) と Cross-Gate Feed-Forward Network (CGFN) である。
LKMN-L は Manga109 データセットの DAT-light よりも 0.23 dB PSNR の改善を 4 ドルアップスケールで達成し、ほぼ 4.8 倍高速である。
- 参考スコア(独自算出の注目度): 5.875680381119361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image super-resolution (SR) in resource-constrained scenarios demands lightweight models balancing performance and latency. Convolutional neural networks (CNNs) offer low latency but lack non-local feature capture, while Transformers excel at non-local modeling yet suffer slow inference. To address this trade-off, we propose the Large Kernel Modulation Network (LKMN), a pure CNN-based model. LKMN has two core components: Enhanced Partial Large Kernel Block (EPLKB) and Cross-Gate Feed-Forward Network (CGFN). The EPLKB utilizes channel shuffle to boost inter-channel interaction, incorporates channel attention to focus on key information, and applies large kernel strip convolutions on partial channels for non-local feature extraction with reduced complexity. The CGFN dynamically adjusts discrepancies between input, local, and non-local features via a learnable scaling factor, then employs a cross-gate strategy to modulate and fuse these features, enhancing their complementarity. Extensive experiments demonstrate that our method outperforms existing state-of-the-art (SOTA) lightweight SR models while balancing quality and efficiency. Specifically, LKMN-L achieves 0.23 dB PSNR improvement over DAT-light on the Manga109 dataset at $\times$4 upscale, with nearly $\times$4.8 times faster. Codes are in the supplementary materials. The code is available at https://github.com/Supereeeee/LKMN.
- Abstract(参考訳): リソース制約のあるシナリオにおける画像超解像(SR)は、パフォーマンスとレイテンシのバランスをとる軽量モデルを必要とする。
畳み込みニューラルネットワーク(CNN)は低レイテンシを提供するが、非局所的な特徴キャプチャがない。
このトレードオフに対処するために、純粋なCNNモデルであるLKMN(Large Kernel Modulation Network)を提案する。
LKMNには2つのコアコンポーネントがある: Enhanced partial Large Kernel Block (EPLKB) と Cross-Gate Feed-Forward Network (CGFN) である。
EPLKBはチャネルシャッフルを利用してチャネル間相互作用を強化し、チャネルの注意をキー情報に集中させ、複雑さを低減した非局所的特徴抽出のために部分的なチャネルに大きなカーネルストリップ畳み込みを適用している。
CGFNは、学習可能なスケーリングファクタを通じて、入力、ローカル、非ローカルの特徴間の差異を動的に調整し、その後、これらの特徴を変調して融合させるクロスゲート戦略を採用し、それらの相補性を高めている。
大規模な実験により,本手法は,品質と効率のバランスを保ちながら,既存の最先端(SOTA)軽量SRモデルよりも優れていることが示された。
具体的には、LKMN-L は Manga109 データセットの DAT-light よりも 0.23 dB PSNR の改善を、$\times$4 のアップスケールで達成し、$\times$4.8 倍高速である。
法典は補足資料に記載されている。
コードはhttps://github.com/Supereeeee/LKMN.comで入手できる。
関連論文リスト
- LKFMixer: Exploring Large Kernel Feature For Efficient Image Super-Resolution [4.254099382808598]
我々は,非局所的な特徴を捕捉する自己認識能力をシミュレートするために,純粋畳み込みニューラルネットワーク (CNN) モデル LKFMixer を提案する。
LKFMixer-Lは、$times$4スケールで0.6dB PSNRの改善を実現し、推論速度は$times$5倍高速である。
論文 参考訳(メタデータ) (2025-08-15T10:50:38Z) - DnLUT: Ultra-Efficient Color Image Denoising via Channel-Aware Lookup Tables [60.95483707212802]
DnLUTは、リソース消費を最小限に抑えながら高品質なカラーイメージを実現する、超効率的なルックアップテーブルベースのフレームワークである。
Pairwise Channel Mixer(PCM)は、チャネル間の相関関係と空間的依存関係を並列に効果的にキャプチャし、L字型畳み込み設計により受容界のカバレッジを最大化する。
これらのコンポーネントをトレーニング後に最適化されたルックアップテーブルに変換することで、DnLUTは、CNNの競合であるDnCNNと比較して500KBのストレージと0.1%のエネルギー消費しか必要とせず、20倍高速な推論を実現している。
論文 参考訳(メタデータ) (2025-03-20T08:15:29Z) - SLTNet: Efficient Event-based Semantic Segmentation with Spike-driven Lightweight Transformer-based Networks [8.019988318247515]
イベントベースのセマンティックセグメンテーションは、自動運転とロボット工学において大きな可能性を秘めている。
現在の人工知能ニューラルネットワーク(ANN)ベースのセグメンテーション手法は、高い計算要求、画像フレームの要求、膨大なエネルギー消費に悩まされている。
イベントベースセマンティックセグメンテーション用に設計されたスパイク駆動型軽量トランスフォーマーベースネットワークであるSLTNetを紹介する。
論文 参考訳(メタデータ) (2024-12-17T12:11:04Z) - DeblurDiNAT: A Compact Model with Exceptional Generalization and Visual Fidelity on Unseen Domains [1.5124439914522694]
DeDiNATはDilated Neighborhood Attentionに基づくデブロアリングトランスフォーマーである。
チャンネル横断学習者は、隣接するチャンネル間の短距離関係を理解するためにトランスフォーマーブロックを支援する。
最先端モデルと比較して、コンパクトなDeDiNATはより優れた一般化能力を示し、知覚的メトリクスにおいて顕著な性能を達成する。
論文 参考訳(メタデータ) (2024-03-19T21:31:31Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - SlimFL: Federated Learning with Superposition Coding over Slimmable
Neural Networks [56.68149211499535]
フェデレートラーニング(FL)は、デバイスの分散コンピューティング機能を活用した効率的なコミュニケーションとコンピューティングのための重要な実現手段である。
本稿では、FLと幅調整可能なスリムブルニューラルネットワーク(SNN)を統合した新しい学習フレームワークを提案する。
局所モデル更新のためのグローバルモデル集約と重ね合わせ訓練(ST)に重ね合わせ符号化(SC)を併用した通信およびエネルギー効率の高いSNNベースFL(SlimFL)を提案する。
論文 参考訳(メタデータ) (2022-03-26T15:06:13Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Joint Superposition Coding and Training for Federated Learning over
Multi-Width Neural Networks [52.93232352968347]
本稿では,2つの相乗的技術,フェデレートラーニング(FL)と幅調整可能なスリムブルニューラルネットワーク(SNN)を統合することを目的とする。
FLは、ローカルに訓練されたモバイルデバイスのモデルを交換することによって、データのプライバシを保護している。しかしながら、SNNは、特に時間変化のあるチャネル条件との無線接続下では、非自明である。
局所モデル更新のためのグローバルモデル集約と重ね合わせ訓練(ST)に重ね合わせ符号化(SC)を併用した通信およびエネルギー効率の高いSNNベースFL(SlimFL)を提案する。
論文 参考訳(メタデータ) (2021-12-05T11:17:17Z) - Neural Calibration for Scalable Beamforming in FDD Massive MIMO with
Implicit Channel Estimation [10.775558382613077]
チャネル推定とビームフォーミングは、周波数分割二重化(FDD)大規模マルチインプット多重出力(MIMO)システムにおいて重要な役割を果たす。
受信したアップリンクパイロットに応じて,基地局のビームフォーマを直接最適化する深層学習方式を提案する。
エンド・ツー・エンドの設計のスケーラビリティを向上させるために,ニューラルキャリブレーション法を提案する。
論文 参考訳(メタデータ) (2021-08-03T14:26:14Z) - Asymmetric CNN for image super-resolution [102.96131810686231]
深層畳み込みニューラルネットワーク(CNN)は、過去5年間で低レベルビジョンに広く適用されています。
画像超解像のための非対称ブロック(AB)、mem?ory拡張ブロック(MEB)、高周波数特徴強調ブロック(HFFEB)からなる非対称CNN(ACNet)を提案する。
我々のACNetは、ブラインドノイズの単一画像超解像(SISR)、ブラインドSISR、ブラインドSISRを効果的に処理できる。
論文 参考訳(メタデータ) (2021-03-25T07:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。