Fugu-MT 論文翻訳(概要): SRFormer: Permuted Self-Attention for Single Image Super-Resolution

論文の概要: SRFormer: Permuted Self-Attention for Single Image Super-Resolution

arxiv url: http://arxiv.org/abs/2303.09735v1
Date: Fri, 17 Mar 2023 02:38:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-20 15:50:05.098568
Title: SRFormer: Permuted Self-Attention for Single Image Super-Resolution
Title（参考訳）: SRFormer: 単一画像の超解像のための可変自己認識
Authors: Yupeng Zhou, Zhen Li, Chun-Le Guo, Song Bai, Ming-Ming Cheng, Qibin Hou
Abstract要約: 以前の研究では、Transformerベースの画像超解像モデル(例えばSwinIR)のウィンドウサイズを増大させることで、モデルの性能は大幅に向上するが、計算オーバーヘッドもかなり大きいことが示されている。 SRFormerは、大きなウィンドウ自己注意の利点を享受できるが、計算負担がさらに少ない、単純だが斬新な方法である。我々のPSAは単純で、ウィンドウの自己注意に基づいて既存の超解像ネットワークに容易に適用できる。
参考スコア（独自算出の注目度）: 103.59735102924283
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Previous works have shown that increasing the window size for Transformer-based image super-resolution models (e.g., SwinIR) can significantly improve the model performance but the computation overhead is also considerable. In this paper, we present SRFormer, a simple but novel method that can enjoy the benefit of large window self-attention but introduces even less computational burden. The core of our SRFormer is the permuted self-attention (PSA), which strikes an appropriate balance between the channel and spatial information for self-attention. Our PSA is simple and can be easily applied to existing super-resolution networks based on window self-attention. Without any bells and whistles, we show that our SRFormer achieves a 33.86dB PSNR score on the Urban100 dataset, which is 0.46dB higher than that of SwinIR but uses fewer parameters and computations. We hope our simple and effective approach can serve as a useful tool for future research in super-resolution model design.
Abstract（参考訳）: 以前の研究では、Transformerベースの画像超解像モデル(例えばSwinIR)のウィンドウサイズが大きくなることで、モデルの性能が大幅に向上することが示されたが、計算オーバーヘッドもかなり大きい。本稿では,SRFormerを提案する。SRFormerは,大きなウィンドウ自己注意の利点を享受できるが,計算負担を低減できる簡易な手法である。 SRFormerのコアとなるのは、チャネルと空間情報の適切なバランスを保ちながら自己認識を行うpermuted self-attention (PSA)である。我々のPSAは単純で、ウィンドウの自己注意に基づいて既存の超解像ネットワークに容易に適用できる。我々のSRFormerは、SwinIRよりも0.46dB高いUrban100データセット上で33.86dBのPSNRスコアを達成しているが、パラメータや計算は少ない。超高解像度モデル設計における今後の研究に役立つツールとして,我々のシンプルで効果的なアプローチが期待できる。

関連論文リスト

PocketSR: The Super-Resolution Expert in Your Pocket Mobiles [69.26751136689533]
リアルワールド・イメージ・スーパーレゾリューション (RealSR) は、携帯電話が捉えたような、Wild内の画像の視覚的品質を高めることを目的としている。大規模な生成モデルを利用する既存の手法は印象的な結果を示しているが、計算コストとレイテンシが高いため、エッジ配置には実用的ではない。超軽量単一ステップモデルであるPocketSRを導入し,高忠実度を維持しつつ生成モデリング機能をRealSRにもたらす。
論文参考訳（メタデータ） (2025-10-03T13:56:18Z)
LKFMixer: Exploring Large Kernel Feature For Efficient Image Super-Resolution [4.254099382808598]
我々は,非局所的な特徴を捕捉する自己認識能力をシミュレートするために,純粋畳み込みニューラルネットワーク (CNN) モデル LKFMixer を提案する。 LKFMixer-Lは、$times$4スケールで0.6dB PSNRの改善を実現し、推論速度は$times$5倍高速である。
論文参考訳（メタデータ） (2025-08-15T10:50:38Z)
Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment [51.99765487172328]
CoZ(Chain-of-zoom)は、SISRをマルチスケール対応プロンプトを備えた中間スケールステートの連鎖に分解するフレームワークである。視覚的手がかりは高倍率で減少するため、視覚言語モデル(VLM)によって生成されたマルチスケール対応テキストプロンプトで各ズームステップを拡大する。実験により、CoZでラップされた標準4x拡散SRモデルが256倍拡大し、高い知覚品質と忠実度が得られることが示された。
論文参考訳（メタデータ） (2025-05-24T08:50:08Z)
M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文参考訳（メタデータ） (2024-11-15T18:54:42Z)
GRFormer: Grouped Residual Self-Attention for Lightweight Single Image Super-Resolution [2.312414367096445]
Grouped Residual Self-Attention (GRSA) は2つの基本コンポーネントに特化している。 ES-RPBは、位置情報を表現する能力を改善するために、元の相対位置バイアスの代替となる。実験では、GRFormerは、$times$2、$times$3、$times$4 SISRタスクに対して、最先端のトランスフォーマーベースのメソッドを上回っている。
論文参考訳（メタデータ） (2024-08-14T11:56:35Z)
HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文参考訳（メタデータ） (2024-07-08T12:42:10Z)
SparseSpikformer: A Co-Design Framework for Token and Weight Pruning in Spiking Transformer [12.717450255837178]
スパイキングニューラルネットワーク(SNN)は低消費電力と高エネルギー効率の利点がある。最も先進的なSNNであるSpikformerは、Transformerの自己保持モジュールとSNNを組み合わせて、優れたパフォーマンスを実現している。本稿では,SparseSpikformerについて紹介する。SparseSpikformerはトークンとウェイトプルーニング技術を用いてSparseSpikformerのスパーシ性を実現するための共同設計フレームワークである。
論文参考訳（メタデータ） (2023-11-15T09:22:52Z)
HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文参考訳（メタデータ） (2023-09-11T05:17:55Z)
SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis [8.648456572970035]
テキスト・画像合成のための遅延拡散モデルSDXLを提案する。以前のStable Diffusionと比較すると、SDXLはUNetの3倍のバックボーンを利用している。従来の安定拡散法と比較すると,性能が大幅に向上した。
論文参考訳（メタデータ） (2023-07-04T23:04:57Z)
Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文参考訳（メタデータ） (2023-05-22T13:39:28Z)
Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文参考訳（メタデータ） (2022-08-08T09:08:40Z)
Enhancing sensor resolution improves CNN accuracy given the same number of parameters or FLOPS [53.10151901863263]
パラメータ数やFLOPSが同じで、高い入力解像度で高い精度が得られるように、ネットワークを変更することは、ほぼ常に可能であることを示す。 MNIST、Fashion MNIST、CIFAR10データセットに関する予備的研究は、提案手法の効率性を実証している。
論文参考訳（メタデータ） (2021-03-09T06:47:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。