論文の概要: Devil is in the Uniformity: Exploring Diverse Learners within Transformer for Image Restoration
- arxiv url: http://arxiv.org/abs/2503.20174v1
- Date: Wed, 26 Mar 2025 02:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:40.651490
- Title: Devil is in the Uniformity: Exploring Diverse Learners within Transformer for Image Restoration
- Title(参考訳): Devil is in the Uniformity: Exploring Diverse Learners within Transformer for Image Restoration
- Authors: Shihao Zhou, Dayu Li, Jinshan Pan, Juncheng Zhou, Jinglei Shi, Jufeng Yang,
- Abstract要約: トランスフォーマーベースのアプローチは、画像復元において大きな注目を集めている。
コアコンポーネントであるMulti-Head Attentionは、多様な特徴を捕捉し、高品質な結果を回復する上で重要な役割を担います。
本稿では,多様な学習者を探索し,頭部間の多様な相互作用を導入することで,MHAを改善することを提案する。
- 参考スコア(独自算出の注目度): 44.39536029525856
- License:
- Abstract: Transformer-based approaches have gained significant attention in image restoration, where the core component, i.e, Multi-Head Attention (MHA), plays a crucial role in capturing diverse features and recovering high-quality results. In MHA, heads perform attention calculation independently from uniform split subspaces, and a redundancy issue is triggered to hinder the model from achieving satisfactory outputs. In this paper, we propose to improve MHA by exploring diverse learners and introducing various interactions between heads, which results in a Hierarchical multI-head atteNtion driven Transformer model, termed HINT, for image restoration. HINT contains two modules, i.e., the Hierarchical Multi-Head Attention (HMHA) and the Query-Key Cache Updating (QKCU) module, to address the redundancy problem that is rooted in vanilla MHA. Specifically, HMHA extracts diverse contextual features by employing heads to learn from subspaces of varying sizes and containing different information. Moreover, QKCU, comprising intra- and inter-layer schemes, further reduces the redundancy problem by facilitating enhanced interactions between attention heads within and across layers. Extensive experiments are conducted on 12 benchmarks across 5 image restoration tasks, including low-light enhancement, dehazing, desnowing, denoising, and deraining, to demonstrate the superiority of HINT. The source code is available in the supplementary materials.
- Abstract(参考訳): トランスフォーマーベースのアプローチは画像修復において大きな注目を集めており、コアコンポーネントであるMHA(Multi-Head Attention)が多様な特徴を捉え、高品質な結果を回復する上で重要な役割を果たしている。
MHAでは、ヘッドは均一な分割部分空間から独立して注意計算を行い、冗長性問題はモデルが良好な出力を達成するのを妨げるために引き起こされる。
本稿では,多種多様な学習者の探索と,階層型MultI-head atteNtion 駆動トランスフォーマモデル HINT による画像復元を実現することにより,MHAの改善を提案する。
HINTには2つのモジュール、すなわち階層型マルチヘッド注意(HMHA)とクエリキーキャッシュ更新(QKCU)がある。
具体的には、HMHAは、異なる大きさのサブスペースから学習し、異なる情報を含むヘッドを用いて、多様なコンテキスト特徴を抽出する。
さらに、層内および層間スキームからなるQKCUは、層内および層間における注目ヘッド間の相互作用の強化を促進することにより、冗長性の問題を低減する。
HINTの優位性を示すため, 低照度向上, 脱落, 脱落, 脱落, 脱落などの5つの画像修復作業のベンチマークを12回実施した。
ソースコードは補足資料で入手できる。
関連論文リスト
- Semi-supervised Semantic Segmentation for Remote Sensing Images via Multi-scale Uncertainty Consistency and Cross-Teacher-Student Attention [59.19580789952102]
本稿では,RS画像セマンティックセグメンテーションタスクのための,新しい半教師付きマルチスケール不確かさとクロスTeacher-Student Attention(MUCA)モデルを提案する。
MUCAは、マルチスケールの不確実性整合正則化を導入することにより、ネットワークの異なる層における特徴写像間の整合性を制限する。
MUCAは学生ネットワークの誘導にクロス教師・学生の注意機構を使用し、学生ネットワークにより差別的な特徴表現を構築するよう誘導する。
論文 参考訳(メタデータ) (2025-01-18T11:57:20Z) - Soft Knowledge Distillation with Multi-Dimensional Cross-Net Attention for Image Restoration Models Compression [0.0]
トランスフォーマーベースのエンコーダデコーダモデルは、画像間転送タスクにおいて顕著な成功を収めた。
しかし、高い計算複雑性はFLOPの増大やパラメータの増大に悩まされ、現実のシナリオでの応用が制限される。
画像復元モデルを圧縮するための多次元クロスネットアテンション(MCA)機構を組み込んだソフトナレッジ蒸留(SKD)戦略を提案する。
論文 参考訳(メタデータ) (2025-01-16T06:25:56Z) - Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration [58.11518043688793]
MPerceiverは、オールインワン画像復元のための適応性、一般化性、忠実性を高める新しいアプローチである。
MPerceiverは、オールインワンIRの9つのタスクでトレーニングされ、ほとんどのタスクで最先端のタスク固有のメソッドより優れています。
論文 参考訳(メタデータ) (2023-12-05T17:47:11Z) - Multi-task Image Restoration Guided By Robust DINO Features [88.74005987908443]
DINOv2から抽出したロバストな特徴を利用したマルチタスク画像復元手法であるmboxtextbfDINO-IRを提案する。
まず,DINOV2の浅い特徴を動的に融合するPSF (Pixel-semantic fusion) モジュールを提案する。
これらのモジュールを統一された深層モデルに定式化することにより、モデルトレーニングを制約するために、DINO知覚の対照的な損失を提案する。
論文 参考訳(メタデータ) (2023-12-04T06:59:55Z) - Finding the Pillars of Strength for Multi-Head Attention [35.556186723898485]
最近の研究は、MHA(Multi-Head Attention)の問題を明らかにしている。
我々は,グループ・アテンション・ヘッドを用いた自己監督型グループ・制約によって訓練されたグループ・ヘッド・アテンションを提案する。
また、冗長なヘッドを除去するVoting-to-Stay法を提案し、より軽量なトランスを実現する。
論文 参考訳(メタデータ) (2023-05-22T03:44:44Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z) - A Dynamic Head Importance Computation Mechanism for Neural Machine
Translation [22.784419165117512]
複数のアテンションヘッドを使用する並列アテンション機構は、様々な用途でTransformerモデルの性能を向上させる。
本研究では,入力に対する頭部の重要度を動的に計算する動的頭部重要度計算機構(DHICM)の設計に焦点をあてる。
モデルがすべてのヘッドに同じスコアを割り当てることを防ぐために、余分な損失関数を追加し、より重要なヘッドを特定し、パフォーマンスを即興で向上する。
論文 参考訳(メタデータ) (2021-08-03T09:16:55Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。