論文の概要: Soft Knowledge Distillation with Multi-Dimensional Cross-Net Attention for Image Restoration Models Compression
- arxiv url: http://arxiv.org/abs/2501.09321v1
- Date: Thu, 16 Jan 2025 06:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:19.747149
- Title: Soft Knowledge Distillation with Multi-Dimensional Cross-Net Attention for Image Restoration Models Compression
- Title(参考訳): 画像復元モデル圧縮のための多次元クロスネット注意によるソフト知識蒸留
- Authors: Yongheng Zhang, Danfeng Yan,
- Abstract要約: トランスフォーマーベースのエンコーダデコーダモデルは、画像間転送タスクにおいて顕著な成功を収めた。
しかし、高い計算複雑性はFLOPの増大やパラメータの増大に悩まされ、現実のシナリオでの応用が制限される。
画像復元モデルを圧縮するための多次元クロスネットアテンション(MCA)機構を組み込んだソフトナレッジ蒸留(SKD)戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Transformer-based encoder-decoder models have achieved remarkable success in image-to-image transfer tasks, particularly in image restoration. However, their high computational complexity-manifested in elevated FLOPs and parameter counts-limits their application in real-world scenarios. Existing knowledge distillation methods in image restoration typically employ lightweight student models that directly mimic the intermediate features and reconstruction results of the teacher, overlooking the implicit attention relationships between them. To address this, we propose a Soft Knowledge Distillation (SKD) strategy that incorporates a Multi-dimensional Cross-net Attention (MCA) mechanism for compressing image restoration models. This mechanism facilitates interaction between the student and teacher across both channel and spatial dimensions, enabling the student to implicitly learn the attention matrices. Additionally, we employ a Gaussian kernel function to measure the distance between student and teacher features in kernel space, ensuring stable and efficient feature learning. To further enhance the quality of reconstructed images, we replace the commonly used L1 or KL divergence loss with a contrastive learning loss at the image level. Experiments on three tasks-image deraining, deblurring, and denoising-demonstrate that our SKD strategy significantly reduces computational complexity while maintaining strong image restoration capabilities.
- Abstract(参考訳): トランスフォーマーベースのエンコーダデコーダモデルは、画像間転送タスク、特に画像復元において顕著な成功を収めている。
しかし、高い計算複雑性はFLOPの増大やパラメータの増大に悩まされ、現実のシナリオでの応用が制限される。
画像復元における既存の知識蒸留手法は、教師の中間的特徴と再構築結果を直接模倣する軽量の学生モデルを用いており、教師間の暗黙の注意関係を見渡している。
そこで我々は,画像復元モデルを圧縮するための多次元クロスネットアテンション(MCA)機構を組み込んだソフトナレッジ蒸留(SKD)戦略を提案する。
このメカニズムは、学生と教師のチャネル次元と空間次元の相互作用を促進するため、学生は注意行列を暗黙的に学習することができる。
さらに,ガウスカーネル関数を用いて,学生と教師のカーネル空間における特徴距離を計測し,安定かつ効率的な特徴学習を実現する。
再構成画像の品質をさらに高めるため、一般的に使用されるL1またはKL分散損失を画像レベルでの対照的な学習損失に置き換える。
我々のSKD戦略は、画像復元能力を維持しながら、計算の複雑さを著しく低減する。
関連論文リスト
- Multi-Scale Representation Learning for Image Restoration with State-Space Model [13.622411683295686]
効率的な画像復元のためのマルチスケール状態空間モデル(MS-Mamba)を提案する。
提案手法は,計算複雑性を低く保ちながら,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T16:42:58Z) - Multi-Scale Texture Loss for CT denoising with GANs [0.9349653765341301]
GAN(Generative Adversarial Networks)は、医療画像の応用を認知するための強力なフレームワークとして証明されている。
本研究は,Gray-Level-Co-occurrence Matrix (GLCM) の内在的マルチスケール特性を利用した損失関数を提案する。
また,画像から抽出したマルチスケールテクスチャ情報を動的に集約する自己認識層を導入する。
論文 参考訳(メタデータ) (2024-03-25T11:28:52Z) - CRC-RL: A Novel Visual Feature Representation Architecture for
Unsupervised Reinforcement Learning [7.4010632660248765]
改良された視覚的特徴を学習するために,CRC損失と呼ばれる不均一な損失関数を用いた新しいアーキテクチャを提案する。
提案したアーキテクチャはCRC-RLと呼ばれ、Deep Mind Controlスイート環境における既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-01-31T08:41:18Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Pixel Distillation: A New Knowledge Distillation Scheme for Low-Resolution Image Recognition [124.80263629921498]
アーキテクチャ制約を同時に破りながら知識蒸留を入力レベルまで拡張するPixel Distillationを提案する。
このようなスキームは、ネットワークアーキテクチャと画像品質の両方をリソースの全体的な要求に応じて調整できるため、展開のための柔軟なコスト制御を実現することができる。
論文 参考訳(メタデータ) (2021-12-17T14:31:40Z) - Multi-Stage Progressive Image Restoration [167.6852235432918]
本稿では、これらの競合する目標を最適にバランスできる新しい相乗的設計を提案する。
本提案では, 劣化した入力の復元関数を段階的に学習する多段階アーキテクチャを提案する。
MPRNetという名前の密接な相互接続型マルチステージアーキテクチャは、10のデータセットに対して強力なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2021-02-04T18:57:07Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。