論文の概要: ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration
- arxiv url: http://arxiv.org/abs/2603.02581v1
- Date: Tue, 03 Mar 2026 03:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.631582
- Title: ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration
- Title(参考訳): ATD:画像復元のための適応型トークン辞書によるトランスフォーマーの改良
- Authors: Leheng Zhang, Wei Long, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu,
- Abstract要約: 本稿では,画像復元のための新しいトランスフォーマーアーキテクチャであるAdaptive Token Dictionary (ATD)を提案する。
我々は、TDCAアテンションマップに埋め込まれたカテゴリ情報を利用して、複数のカテゴリにグループ入力する。
ATDとその軽量版ATD-lightは、複数の画像超解像度ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 27.622615148357994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformers have gained significant popularity in image restoration tasks such as image super-resolution and denoising, owing to their superior performance. However, balancing performance and computational burden remains a long-standing problem for transformer-based architectures. Due to the quadratic complexity of self-attention, existing methods often restrict attention to local windows, resulting in limited receptive field and suboptimal performance. To address this issue, we propose Adaptive Token Dictionary (ATD), a novel transformer-based architecture for image restoration that enables global dependency modeling with linear complexity relative to image size. The ATD model incorporates a learnable token dictionary, which summarizes external image priors (i.e., typical image structures) during the training process. To utilize this information, we introduce a token dictionary cross-attention (TDCA) mechanism that enhances the input features via interaction with the learned dictionary. Furthermore, we exploit the category information embedded in the TDCA attention maps to group input features into multiple categories, each representing a cluster of similar features across the image and serving as an attention group. We also integrate the learned category information into the feed-forward network to further improve feature fusion. ATD and its lightweight version ATD-light, achieve state-of-the-art performance on multiple image super-resolution benchmarks. Moreover, we develop ATD-U, a multi-scale variant of ATD, to address other image restoration tasks, including image denoising and JPEG compression artifacts removal. Extensive experiments demonstrate the superiority of out proposed models, both quantitatively and qualitatively.
- Abstract(参考訳): 近年、トランスフォーマーは画像の超解像やデノイングといった画像復元タスクにおいて、優れた性能のために大きな人気を集めている。
しかしながら、トランスベースのアーキテクチャでは、パフォーマンスと計算負荷のバランスが長く続く問題である。
自己注意の二次的な複雑さのため、既存の手法はしばしば局所的な窓への注意を制限し、受容野や準最適性能が制限される。
この問題を解決するために,画像サイズに対して線形に複雑な大域的依存性モデリングが可能な,画像復元のための新しいトランスフォーマーベースのアーキテクチャであるAdaptive Token Dictionary (ATD)を提案する。
ATDモデルには学習可能なトークン辞書が組み込まれており、トレーニングプロセス中に外部画像(典型的な画像構造)を要約する。
この情報を活用するために,学習辞書との対話を通じて入力特徴を高めるトークン辞書クロスアテンション(TDCA)機構を導入する。
さらに、TDCAアテンションマップに埋め込まれたカテゴリ情報を利用して、複数のカテゴリにグループ化し、それぞれが画像全体にわたって類似した特徴のクラスタを表現し、アテンショングループとして機能する。
また、学習したカテゴリ情報をフィードフォワードネットワークに統合し、機能融合をさらに改善する。
ATDとその軽量版ATD-lightは、複数の画像超解像度ベンチマークで最先端のパフォーマンスを達成する。
さらに,ATDのマルチスケール版であるATD-Uを開発し,画像復号化やJPEG圧縮アーティファクト削除など,他の画像復元作業に対処する。
大規模な実験は、量的にも質的にも、提案されたモデルの優越性を実証している。
関連論文リスト
- Joint multi-dimensional dynamic attention and transformer for general image restoration [14.987034136856463]
屋外のイメージは 雨や迷路、騒音などによって 深刻な劣化に苦しむことが多い
現在の画像復元法は、効率を保ちながら複雑な劣化を扱うのに苦労している。
本稿では,多次元動的注意と自己注意を組み合わせた新しい画像復元アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-11-12T15:58:09Z) - Multi-Scale Representation Learning for Image Restoration with State-Space Model [13.622411683295686]
効率的な画像復元のためのマルチスケール状態空間モデル(MS-Mamba)を提案する。
提案手法は,計算複雑性を低く保ちながら,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-19T16:42:58Z) - Transcending the Limit of Local Window: Advanced Super-Resolution
Transformer with Adaptive Token Dictionary [30.506135273928596]
Single Image Super-Resolutionは、高解像度(HR)画像を低解像度(LR)画像から推定する古典的なコンピュータビジョン問題である。
SR変換器にアダプティブトークン辞書群を導入し,ATD-SR法を確立する。
提案手法は, 様々な画像超解像ベンチマークにおいて, 最高の性能を実現する。
論文 参考訳(メタデータ) (2024-01-16T08:50:44Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - HAT: Hybrid Attention Transformer for Image Restoration [59.69448362233234]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Prompt-based Ingredient-Oriented All-in-One Image Restoration [0.0]
複数の画像劣化課題に対処する新しいデータ成分指向手法を提案する。
具体的には、エンコーダを用いて特徴をキャプチャし、デコーダを誘導するための劣化情報を含むプロンプトを導入する。
我々の手法は最先端技術と競争的に機能する。
論文 参考訳(メタデータ) (2023-09-06T15:05:04Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。