Fugu-MT 論文翻訳(概要): A Low-Resolution Image is Worth 1x1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift

論文の概要: A Low-Resolution Image is Worth 1x1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift

arxiv url: http://arxiv.org/abs/2411.10231v1
Date: Fri, 15 Nov 2024 14:43:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.081468
Title: A Low-Resolution Image is Worth 1x1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift
Title（参考訳）: 低分解能画像は1x1ワードである:変換器とテイラーシフトによる微細画像の超解法
Authors: Sanath Budakegowdanadoddi Nagaraju, Brian Bernhard Moser, Tobias Christian Nauen, Stanislav Frolov, Federico Raue, Andreas Dengel,
Abstract要約: 1x1のパッチサイズを利用して制限に対処するTaylorIRを提案し、任意のトランスフォーマーベースSRモデルでピクセルレベルの処理を可能にする。実験により,従来の自己注意型変圧器と比較して,メモリ消費を最大60%削減しながら,最先端のSR性能を実現することができた。
参考スコア（独自算出の注目度）: 6.835244697120131
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based Super-Resolution (SR) models have recently advanced image reconstruction quality, yet challenges remain due to computational complexity and an over-reliance on large patch sizes, which constrain fine-grained detail enhancement. In this work, we propose TaylorIR to address these limitations by utilizing a patch size of 1x1, enabling pixel-level processing in any transformer-based SR model. To address the significant computational demands under the traditional self-attention mechanism, we employ the TaylorShift attention mechanism, a memory-efficient alternative based on Taylor series expansion, achieving full token-to-token interactions with linear complexity. Experimental results demonstrate that our approach achieves new state-of-the-art SR performance while reducing memory consumption by up to 60% compared to traditional self-attention-based transformers.
Abstract（参考訳）: トランスフォーマーベースのスーパーリゾリューション(SR)モデルは最近、画像再構成の品質が向上しているが、計算の複雑さと大きなパッチサイズへの過度な依存が問題であり、細かな詳細化を制限している。本研究では,TorylorIRを用いて1x1のパッチサイズを利用して,任意のトランスフォーマーベースSRモデルにおいてピクセルレベルの処理を可能にする。従来の自己注意機構の下での重要な計算要求に対処するため,Taylor級数展開に基づくメモリ効率の代替であるTaylorShiftアテンション機構を用いて,線形複雑度によるトークン対トーケンの完全な相互作用を実現する。実験により,従来の自己注意型変圧器と比較して,メモリ消費を最大60%削減しながら,最先端のSR性能を実現することができた。

関連論文リスト

FourierSR: A Fourier Token-based Plugin for Efficient Image Super-Resolution [21.909175743080713]
画像超解像(SR)は、高解像度画像に低解像度画像を復元することを目的としており、SR効率を改善することが大きな課題である。 SRの一般的な単位、例えば畳み込みやウィンドウベースのトランスフォーマーは、受容場が限られている。本稿では、FourierSRと呼ばれるFourierトークンベースのプラグインを提案し、SRを均一に改善する。
論文参考訳（メタデータ） (2025-03-13T04:50:55Z)
Contrast: A Hybrid Architecture of Transformers and State Space Models for Low-Level Vision [3.574664325523221]
textbfContrastは、textbfConvolutional、textbfTransformer、textbfState Spaceコンポーネントを組み合わせたハイブリッドSRモデルである。変換器と状態空間機構を統合することで、textbfContrastは各アプローチの欠点を補償し、グローバルコンテキストモデリングとピクセルレベルの精度を向上させる。
論文参考訳（メタデータ） (2025-01-23T03:34:14Z)
MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration [85.41380152286479]
MB-TaylorFormer V2は複数の画像復元タスクにおいて最先端の性能を達成することを示す。提案したモデルでは,TaylorFormer V2のTaylorFormerの2番目のバージョンとして,粗大な特徴を同時に処理する機能を備えている。
論文参考訳（メタデータ） (2025-01-08T13:13:52Z)
HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文参考訳（メタデータ） (2024-07-08T12:42:10Z)
CFAT: Unleashing TriangularWindows for Image Super-resolution [5.130320840059732]
トランスフォーマーモデルが画像超解像(SR)の分野に革命をもたらした境界レベルの歪みを軽減するために,矩形ウィンドウと同期して動作する非重なりの三角形ウィンドウ手法を提案する。提案モデルでは,他の最先端SRアーキテクチャに比べて0.7dB性能が向上した。
論文参考訳（メタデータ） (2024-03-24T13:31:31Z)
Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。 CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。 CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文参考訳（メタデータ） (2024-01-11T03:08:00Z)
PTSR: Patch Translator for Image Super-Resolution [16.243363392717434]
画像超解像(PTSR)のためのパッチトランスレータを提案し,この問題に対処する。提案するPTSRは、畳み込み動作のないトランスフォーマーベースGANネットワークである。マルチヘッドアテンションを利用した改良パッチを再生するための新しいパッチトランスレータモジュールを提案する。
論文参考訳（メタデータ） (2023-10-20T01:45:00Z)
Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文参考訳（メタデータ） (2022-06-21T17:33:53Z)
Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文参考訳（メタデータ） (2022-03-15T06:52:25Z)
HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文参考訳（メタデータ） (2021-10-18T15:37:58Z)
Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文参考訳（メタデータ） (2021-06-14T17:39:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。