Fugu-MT 論文翻訳(概要): Dual-former: Hybrid Self-attention Transformer for Efficient Image Restoration

論文の概要: Dual-former: Hybrid Self-attention Transformer for Efficient Image Restoration

arxiv url: http://arxiv.org/abs/2210.01069v1
Date: Mon, 3 Oct 2022 16:39:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 16:00:04.330779
Title: Dual-former: Hybrid Self-attention Transformer for Efficient Image Restoration
Title（参考訳）: Dual-former:効率的な画像復元のためのハイブリッドセルフアテンショントランス
Authors: Sixiang Chen, Tian Ye, Yun Liu, Erkang Chen
Abstract要約: 本稿では,自己アテンションモジュールの強力なグローバルモデリング能力と,全体のアーキテクチャにおける畳み込みの局所モデリング能力を組み合わせたDual-formerを提案する。実験により、Dual-formerはIndoorデータセットの最先端MAXIM法よりも1.91dBのゲインを達成していることが示された。単一画像のデライニングでは、わずか21.5%のGFLOPを持つ5つのデータセットの平均結果に対して、SOTA法を0.1dB PSNRで上回っている。
参考スコア（独自算出の注目度）: 6.611849560359801
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, image restoration transformers have achieved comparable performance with previous state-of-the-art CNNs. However, how to efficiently leverage such architectures remains an open problem. In this work, we present Dual-former whose critical insight is to combine the powerful global modeling ability of self-attention modules and the local modeling ability of convolutions in an overall architecture. With convolution-based Local Feature Extraction modules equipped in the encoder and the decoder, we only adopt a novel Hybrid Transformer Block in the latent layer to model the long-distance dependence in spatial dimensions and handle the uneven distribution between channels. Such a design eliminates the substantial computational complexity in previous image restoration transformers and achieves superior performance on multiple image restoration tasks. Experiments demonstrate that Dual-former achieves a 1.91dB gain over the state-of-the-art MAXIM method on the Indoor dataset for single image dehazing while consuming only 4.2% GFLOPs as MAXIM. For single image deraining, it exceeds the SOTA method by 0.1dB PSNR on the average results of five datasets with only 21.5% GFLOPs. Dual-former also substantially surpasses the latest desnowing method on various datasets, with fewer parameters.
Abstract（参考訳）: 近年、画像復元トランスフォーマーは、従来の最先端cnnと同等の性能を達成している。しかし、そのようなアーキテクチャを効率的に活用する方法は未解決の問題である。本稿では,自己注意型モジュールの強力なグローバルモデリング能力と,全体のアーキテクチャにおける畳み込みの局所モデリング能力を組み合わせたDual-formerを提案する。エンコーダとデコーダを備えた畳み込み型局所特徴抽出モジュールでは,空間空間の長距離依存性をモデル化し,チャネル間の不均一分布を処理するために,遅延層にハイブリットトランスフォーマブロックを導入する。このような設計は、以前の画像復元変換器の計算量を大幅に減らし、複数の画像復元タスクにおいて優れた性能を実現する。実験により、Dual-formerは、MAXIMとしてわずか4.2%のGFLOPを消費しながら、シングルイメージのデハジングのためのIndoorデータセット上で、最先端のMAXIM法よりも1.91dBのアップを達成した。単一画像デラリニングでは、21.5%のGFLOPを持つ5つのデータセットの平均結果に対して、SOTA法を0.1dBPSNRで上回っている。 dual-formerはまた、パラメータの少ない様々なデータセットで最新のdesnowingメソッドを大幅に上回っている。

関連論文リスト

NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers [10.84639914909133]
フローベースのトランスフォーマーモデルは、最先端の画像生成性能を達成しているが、しばしば高い推論遅延と計算コストに悩まされている。本稿では, 時間的, 空間的, 建築的次元にわたって生成過程を分解するBridged Progressive Rectified Flow Transformers (NAMI)を提案する。
論文参考訳（メタデータ） (2025-03-12T10:38:58Z)
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文参考訳（メタデータ） (2025-01-02T18:59:40Z)
OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
OminiControlは、イメージ条件をトレーニング済みのDiffusion Transformer(DiT)モデルに統合するフレームワークである。コアとなるOminiControlはパラメータ再利用機構を活用しており、強力なバックボーンとしてイメージ条件をエンコードすることができる。 OminiControlは、主観駆動生成や空間的に整合した条件を含む、幅広いイメージコンディショニングタスクを統一的に処理する。
論文参考訳（メタデータ） (2024-11-22T17:55:15Z)
Joint multi-dimensional dynamic attention and transformer for general image restoration [14.987034136856463]
屋外のイメージは雨や迷路、騒音などによって深刻な劣化に苦しむことが多い現在の画像復元法は、効率を保ちながら複雑な劣化を扱うのに苦労している。本稿では,多次元動的注意と自己注意を組み合わせた新しい画像復元アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-11-12T15:58:09Z)
Lightweight single-image super-resolution network based on dual paths [0.552480439325792]
ディープラーニングのシングルイメージ超解像(SISR)アルゴリズムには,畳み込みニューラルネットワークとTransformerに基づく2つのモデルがある。本稿では,2方向相補的畳み込みとトランスフォーマーに基づく,軽量なマルチスケール機能融合ネットワークモデルを提案する。
論文参考訳（メタデータ） (2024-09-10T15:31:37Z)
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文参考訳（メタデータ） (2024-06-13T17:59:58Z)
Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する既存の二項化法では性能が著しく低下する。画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文参考訳（メタデータ） (2024-06-09T10:30:25Z)
A-SDM: Accelerating Stable Diffusion through Redundancy Removal and Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文参考訳（メタデータ） (2023-12-24T15:37:47Z)
HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文参考訳（メタデータ） (2023-09-11T05:17:55Z)
Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文参考訳（メタデータ） (2022-07-21T12:50:54Z)
HUMUS-Net: Hybrid unrolled multi-scale network architecture for accelerated MRI reconstruction [38.0542877099235]
HUMUS-Netは、暗黙のバイアスと畳み込みの効率を、無ロールでマルチスケールのネットワークにおけるTransformerブロックのパワーと組み合わせたハイブリッドアーキテクチャである。我々のネットワークは、最も広く公開されているMRIデータセットである高速MRIデータセット上で、新しい最先端技術を確立する。
論文参考訳（メタデータ） (2022-03-15T19:26:29Z)
CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文参考訳（メタデータ） (2021-12-31T04:37:11Z)
Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文参考訳（メタデータ） (2021-06-14T17:39:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。