論文の概要: Learning A Sparse Transformer Network for Effective Image Deraining
- arxiv url: http://arxiv.org/abs/2303.11950v1
- Date: Tue, 21 Mar 2023 15:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 14:22:25.213564
- Title: Learning A Sparse Transformer Network for Effective Image Deraining
- Title(参考訳): 画像消去のためのスパーストランスフォーマネットワークの学習
- Authors: Xiang Chen, Hao Li, Mingqiang Li, Jinshan Pan
- Abstract要約: 有効デレインネットワークであるスパーストランス(DRSformer)を提案する。
学習可能なトップk選択演算子を開発し、各クエリのキーから最も重要な注意点を適応的に保持し、より優れた機能アグリゲーションを実現する。
我々は,協調改良デライン方式を示すために,専門家による特徴補償器を混合したモデルを開発した。
- 参考スコア(独自算出の注目度): 42.01684644627124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers-based methods have achieved significant performance in image
deraining as they can model the non-local information which is vital for
high-quality image reconstruction. In this paper, we find that most existing
Transformers usually use all similarities of the tokens from the query-key
pairs for the feature aggregation. However, if the tokens from the query are
different from those of the key, the self-attention values estimated from these
tokens also involve in feature aggregation, which accordingly interferes with
the clear image restoration. To overcome this problem, we propose an effective
DeRaining network, Sparse Transformer (DRSformer) that can adaptively keep the
most useful self-attention values for feature aggregation so that the
aggregated features better facilitate high-quality image reconstruction.
Specifically, we develop a learnable top-k selection operator to adaptively
retain the most crucial attention scores from the keys for each query for
better feature aggregation. Simultaneously, as the naive feed-forward network
in Transformers does not model the multi-scale information that is important
for latent clear image restoration, we develop an effective mixed-scale
feed-forward network to generate better features for image deraining. To learn
an enriched set of hybrid features, which combines local context from CNN
operators, we equip our model with mixture of experts feature compensator to
present a cooperation refinement deraining scheme. Extensive experimental
results on the commonly used benchmarks demonstrate that the proposed method
achieves favorable performance against state-of-the-art approaches. The source
code and trained models are available at
https://github.com/cschenxiang/DRSformer.
- Abstract(参考訳): トランスフォーマーベースの手法は、高品質な画像再構成に不可欠な非局所情報をモデル化できるため、画像参照において大きな性能を発揮している。
本稿では,既存のトランスフォーマーでは,通常,クエリキーペアのトークンの類似点をすべて特徴集約に用いている。
しかし、クエリからのトークンがキーのトークンと異なる場合、これらのトークンから推定される自己注意値は特徴集約にも関与し、それ故に明確な画像復元に干渉する。
この問題を解決するために,機能集約において最も有用な自己アテンション値を適応的に保持し,高品質な画像再構成を容易にする,効果的なデレイニングネットワークであるSparse Transformer(DRSformer)を提案する。
具体的には,各クエリのキーから最も重要な注意スコアを適応的に保持し,機能集約性を向上させるための学習可能なトップk選択演算子を開発した。
同時に,トランスフォーマのナイーブフィードフォワードネットワークは,潜伏した画像復元に重要なマルチスケール情報をモデル化しないため,画像のデレイニングに優れた特徴を生成するための効果的な混合フィードフォワードネットワークを開発する。
CNNオペレーターからローカルコンテキストを組み合わせたリッチなハイブリッド特徴集合を学習するために、我々は、専門家による特徴補償器を混合して、協調改善デラニング方式を提案する。
評価実験の結果,提案手法は最先端の手法に対して良好な性能を発揮することが示された。
ソースコードとトレーニングされたモデルはhttps://github.com/cschenxiang/drsformerで入手できる。
関連論文リスト
- Transformer-based Clipped Contrastive Quantization Learning for
Unsupervised Image Retrieval [15.982022297570108]
教師なし画像検索は、与えられたクエリ画像の類似画像を取得するために、任意のレベルなしに重要な視覚的特徴を学習することを目的としている。
本稿では,パッチベースの処理により局所的なコンテキストを持つTransformerを用いて,画像のグローバルコンテキストを符号化するTransClippedCLRモデルを提案する。
提案したクリップ付きコントラスト学習の結果は、バニラコントラスト学習と同一のバックボーンネットワークと比較して、すべてのデータセットで大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-27T09:39:11Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Prompt-based Ingredient-Oriented All-in-One Image Restoration [0.0]
複数の画像劣化課題に対処する新しいデータ成分指向手法を提案する。
具体的には、エンコーダを用いて特徴をキャプチャし、デコーダを誘導するための劣化情報を含むプロンプトを導入する。
我々の手法は最先端技術と競争的に機能する。
論文 参考訳(メタデータ) (2023-09-06T15:05:04Z) - Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。