論文の概要: Plug-and-Play Linear Attention for Pre-trained Image and Video Restoration Models
- arxiv url: http://arxiv.org/abs/2506.08520v1
- Date: Tue, 10 Jun 2025 07:37:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.767543
- Title: Plug-and-Play Linear Attention for Pre-trained Image and Video Restoration Models
- Title(参考訳): 事前学習画像と映像復元モデルに対するプラグアンドプレイリニアアテンション
- Authors: Srinivasan Kidambi, Pravin Nair,
- Abstract要約: MHSA(Multi-blur self-attention)は、現代のコンピュータビジョンモデルの中核となるコンポーネントである。
本稿では,事前学習した画像とビデオ復元モデルに統合可能なプラグイン・アンド・プレイ・モジュールとして開発された自己注意の線形近似を提案する。
- 参考スコア(独自算出の注目度): 5.463417677777276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-head self-attention (MHSA) has become a core component in modern computer vision models. However, its quadratic complexity with respect to input length poses a significant computational bottleneck in real-time and resource constrained environments. We propose PnP-Nystra, a Nystr\"om based linear approximation of self-attention, developed as a plug-and-play (PnP) module that can be integrated into the pre-trained image and video restoration models without retraining. As a drop-in replacement for MHSA, PnP-Nystra enables efficient acceleration in various window-based transformer architectures, including SwinIR, Uformer, and RVRT. Our experiments across diverse image and video restoration tasks, including denoising, deblurring, and super-resolution, demonstrate that PnP-Nystra achieves a 2-4x speed-up on an NVIDIA RTX 4090 GPU and a 2-5x speed-up on CPU inference. Despite these significant gains, the method incurs a maximum PSNR drop of only 1.5 dB across all evaluated tasks. To the best of our knowledge, we are the first to demonstrate a linear attention functioning as a training-free substitute for MHSA in restoration models.
- Abstract(参考訳): MHSA(Multi-head Self-attention)は、現代のコンピュータビジョンモデルにおいてコアコンポーネントとなっている。
しかし、入力長に関する二次的な複雑性は、リアルタイムおよびリソース制約環境において、重要な計算ボトルネックを生じさせる。
PnPモジュールとして開発されたNystr-Nystraは,事前学習した画像やビデオの復元モデルに再学習せずに組み込むことができる。
MHSAの代替として、PnP-NystraはSwinIR、Uformer、RVRTなど、様々なウィンドウベースのトランスフォーマーアーキテクチャにおいて効率的なアクセラレーションを実現する。
PnP-NystraがNVIDIA RTX 4090 GPUで2-4倍、CPU推論で2-5倍のスピードアップを達成したことを示す。
これらの大きな利益にもかかわらず、この手法はすべての評価されたタスクで最大1.5dBのPSNR低下を発生させる。
我々の知る限りでは、回復モデルにおけるMHSAの訓練不要代替品として機能する線形注意力を示すのは初めてである。
関連論文リスト
- From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - You Only Sample Once: Taming One-Step Text-to-Image Synthesis by Self-Cooperative Diffusion GANs [13.133574069588896]
YOSOは、高速でスケーラブルで高忠実なワンステップ画像合成のための新しい生成モデルであり、高いトレーニング安定性とモードカバレッジを持つ。
提案手法は,一段階のモデルトレーニングをスクラッチから行うことができ,競争性能が向上することを示す。
特に、YOSO-PixArt-$alpha$は、512の解像度でトレーニングされた1ステップで画像を生成することができる。
論文 参考訳(メタデータ) (2024-03-19T17:34:27Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - Towards Vision Transformer Unrolling Fixed-Point Algorithm: a Case Study
on Image Restoration [21.79667520132755]
本稿では、FPをアンロールし、FPformerと呼ばれるTransformerブロックを介して各アンロールされたプロセスを近似するフレームワークを提案する。
トランスフォーマーの能力をフル活用するために,自己教師付き事前学習と教師付き微調整を用いて,提案手法を画像復元に適用する。
FPformer、FPRformer、FPAformerは、自己教師付き事前学習と教師付き微調整を用いて、最先端の画像復元法と競争性能と訓練効率の向上を実現している。
論文 参考訳(メタデータ) (2023-01-29T02:59:14Z) - Dual-former: Hybrid Self-attention Transformer for Efficient Image
Restoration [6.611849560359801]
本稿では,自己アテンションモジュールの強力なグローバルモデリング能力と,全体のアーキテクチャにおける畳み込みの局所モデリング能力を組み合わせたDual-formerを提案する。
実験により、Dual-formerはIndoorデータセットの最先端MAXIM法よりも1.91dBのゲインを達成していることが示された。
単一画像のデライニングでは、わずか21.5%のGFLOPを持つ5つのデータセットの平均結果に対して、SOTA法を0.1dB PSNRで上回っている。
論文 参考訳(メタデータ) (2022-10-03T16:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。