論文の概要: Distilled Pooling Transformer Encoder for Efficient Realistic Image Dehazing
- arxiv url: http://arxiv.org/abs/2412.14220v1
- Date: Wed, 18 Dec 2024 14:16:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:37.778311
- Title: Distilled Pooling Transformer Encoder for Efficient Realistic Image Dehazing
- Title(参考訳): 効率的な実写画像デハージングのための蒸留プール変圧器エンコーダ
- Authors: Le-Anh Tran, Dong-Chul Park,
- Abstract要約: 本稿では,DPTE-Net と呼ばれる蒸留ポリオ変圧器を用いて,リアルなイメージデハージング用に設計された軽量ニューラルネットワークを提案する。
種々のベンチマークデータセットによる実験結果から,提案するDPTE-Netは,最先端の手法と比較して,競合的なデハージング性能が得られることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper proposes a lightweight neural network designed for realistic image dehazing, utilizing a Distilled Pooling Transformer Encoder, named DPTE-Net. Recently, while vision transformers (ViTs) have achieved great success in various vision tasks, their self-attention (SA) module's complexity scales quadratically with image resolution, hindering their applicability on resource-constrained devices. To overcome this, the proposed DPTE-Net substitutes traditional SA modules with efficient pooling mechanisms, significantly reducing computational demands while preserving ViTs' learning capabilities. To further enhance semantic feature learning, a distillation-based training process is implemented which transfers rich knowledge from a larger teacher network to DPTE-Net. Additionally, DPTE-Net is trained within a generative adversarial network (GAN) framework, leveraging the strong generalization of GAN in image restoration, and employs a transmission-aware loss function to dynamically adapt to varying haze densities. Experimental results on various benchmark datasets have shown that the proposed DPTE-Net can achieve competitive dehazing performance when compared to state-of-the-art methods while maintaining low computational complexity, making it a promising solution for resource-limited applications. The code of this work is available at https://github.com/tranleanh/dpte-net.
- Abstract(参考訳): 本稿では,DPTE-Net という名前のDistilled Pooling Transformer Encoder を用いて,リアルなイメージデハージング用に設計された軽量ニューラルネットワークを提案する。
近年、視覚変換器(ViT)は様々な視覚タスクにおいて大きな成功を収めているが、自己注意(SA)モジュールの複雑さは画像解像度と2倍に拡大し、リソース制約のあるデバイスへの適用を妨げている。
これを解決するため、DPTE-Netは従来のSAモジュールを効率的なプール機構で置き換え、ViTの学習能力を保ちながら計算要求を大幅に削減した。
セマンティックな特徴学習をさらに強化するために、より大きな教師ネットワークからDPTE-Netに豊富な知識を伝達する蒸留ベースの訓練プロセスが導入された。
さらに、DPTE-Netは、GAN(Generative Adversarial Network)フレームワーク内で訓練され、画像復元におけるGANの強力な一般化を活用し、様々なヘイズ密度に動的に適応するためにトランスミッションアウェアロス機能を利用する。
種々のベンチマークデータセットによる実験結果から,DPTE-Netは計算量が少なくながら,最先端の手法と比較して競合的なデハージング性能を達成でき,リソース制限型アプリケーションにとって有望なソリューションであることがわかった。
この作業のコードはhttps://github.com/tranleanh/dpte-net.comで公開されている。
関連論文リスト
- EViT-Unet: U-Net Like Efficient Vision Transformer for Medical Image Segmentation on Mobile and Edge Devices [5.307205032859535]
精度を維持しながら計算複雑性を低減できる,効率的なViTベースのセグメンテーションネットワークであるEViT-UNetを提案する。
EViT-UNetは、エンコーダ、デコーダ、ボトルネック層、スキップ接続からなるU字型アーキテクチャ上に構築されている。
実験の結果、EViT-UNetは、計算複雑性を著しく低減しつつ、医用画像のセグメンテーションにおいて高い精度を達成することが示された。
論文 参考訳(メタデータ) (2024-10-19T08:42:53Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - OnDev-LCT: On-Device Lightweight Convolutional Transformers towards
federated learning [29.798780069556074]
フェデレートラーニング(FL)は、複数のエッジデバイスにまたがる機械学習モデルを協調的にトレーニングするための、有望なアプローチとして登場した。
トレーニングデータとリソースに制限のあるオンデバイスビジョンタスクのための軽量畳み込み変換器を提案する。
論文 参考訳(メタデータ) (2024-01-22T02:17:36Z) - SRTransGAN: Image Super-Resolution using Transformer based Generative
Adversarial Network [16.243363392717434]
トランスをベースとしたエンコーダデコーダネットワークを2倍画像と4倍画像を生成するジェネレータとして提案する。
提案したSRTransGANは、PSNRとSSIMのスコアの平均で、既存の手法よりも4.38%優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:22:39Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Deep Adaptive Inference Networks for Single Image Super-Resolution [72.7304455761067]
シングルイメージ超解像(SISR)は、ディープ畳み込みニューラルネットワーク(CNN)の展開により、近年大きく進歩している。
本稿では,深部SISR(AdaDSR)の適応型推論ネットワークを活用することで,この問題に対処する。
我々のAdaDSRは、SISRモデルをバックボーンとし、画像の特徴とリソース制約を入力として取り、ローカルネットワーク深さのマップを予測する軽量アダプタモジュールを備える。
論文 参考訳(メタデータ) (2020-04-08T10:08:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。