論文の概要: Transcending the Limit of Local Window: Advanced Super-Resolution
Transformer with Adaptive Token Dictionary
- arxiv url: http://arxiv.org/abs/2401.08209v1
- Date: Tue, 16 Jan 2024 08:50:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 14:35:44.006431
- Title: Transcending the Limit of Local Window: Advanced Super-Resolution
Transformer with Adaptive Token Dictionary
- Title(参考訳): ローカルウィンドウの限界を超越する:適応トークン辞書を用いた高度超解像トランス
- Authors: Leheng Zhang, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu
- Abstract要約: Single Image Super-Resolutionは、高解像度(HR)画像を低解像度(LR)画像から推定する古典的なコンピュータビジョン問題である。
SR変換器に補助的なAdapeive Token Dictionaryを導入し,ATD-SR法を確立する。
提案手法は, 様々な画像超解像ベンチマークにおいて, 最高の性能を実現する。
- 参考スコア(独自算出の注目度): 30.506135273928596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single Image Super-Resolution is a classic computer vision problem that
involves estimating high-resolution (HR) images from low-resolution (LR) ones.
Although deep neural networks (DNNs), especially Transformers for
super-resolution, have seen significant advancements in recent years,
challenges still remain, particularly in limited receptive field caused by
window-based self-attention. To address these issues, we introduce a group of
auxiliary Adapeive Token Dictionary to SR Transformer and establish an ATD-SR
method. The introduced token dictionary could learn prior information from
training data and adapt the learned prior to specific testing image through an
adaptive refinement step. The refinement strategy could not only provide global
information to all input tokens but also group image tokens into categories.
Based on category partitions, we further propose a category-based
self-attention mechanism designed to leverage distant but similar tokens for
enhancing input features. The experimental results show that our method
achieves the best performance on various single image super-resolution
benchmarks.
- Abstract(参考訳): Single Image Super-Resolutionは、高解像度(HR)画像を低解像度(LR)画像から推定する古典的なコンピュータビジョン問題である。
ディープニューラルネットワーク(DNN)、特に超解像度のトランスフォーマーは近年大きな進歩を遂げているが、特にウィンドウベースの自己認識によって引き起こされる限定的な受容領域において、課題は依然として残っている。
これらの問題に対処するため、SR変換器に補助的なAdapeive Token Dictionaryを導入し、ATD-SR法を確立する。
導入されたトークン辞書は、トレーニングデータから事前情報を学習し、適応的な改良ステップを通じて、特定のテストイメージに先行して学習を適応させることができる。
改良戦略は、すべての入力トークンにグローバル情報を提供するだけでなく、イメージトークンをカテゴリにグループ化する。
さらに,カテゴリ分割に基づいて,遠距離だが類似したトークンを活用して入力機能を向上させるカテゴリベースの自己照応機構を提案する。
実験結果から,本手法は様々な単一画像超解像ベンチマークにおいて最高の性能が得られることがわかった。
関連論文リスト
- Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - TcGAN: Semantic-Aware and Structure-Preserved GANs with Individual
Vision Transformer for Fast Arbitrary One-Shot Image Generation [11.207512995742999]
画像の内部パッチから学習する生成的敵ネットワークを持つワンショット画像生成(OSG)は、世界中で注目を集めている。
本稿では,既存のワンショット画像生成手法の欠点を克服するために,個々の視覚変換器を用いた構造保存方式TcGANを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:05:59Z) - Learning Resolution-Adaptive Representations for Cross-Resolution Person
Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。
実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。
本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文 参考訳(メタデータ) (2022-07-09T03:49:51Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - SRWarp: Generalized Image Super-Resolution under Arbitrary
Transformation [65.88321755969677]
ディープCNNは、単一の画像超解像を含む画像処理とそのアプリケーションで大きな成功を収めています。
近年のアプローチでは、実測値のアップサンプリング要因にまで範囲を広げている。
任意の画像変換に向けてSRタスクをさらに一般化するSRWarpフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-21T02:50:41Z) - PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of
Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。
本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-08T16:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。