論文の概要: Video Super-Resolution Transformer with Masked Inter&Intra-Frame Attention
- arxiv url: http://arxiv.org/abs/2401.06312v3
- Date: Fri, 22 Mar 2024 03:14:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 22:10:49.212128
- Title: Video Super-Resolution Transformer with Masked Inter&Intra-Frame Attention
- Title(参考訳): Masked Inter-Intra-Frame Attention を用いた超解像変換器
- Authors: Xingyu Zhou, Leheng Zhang, Xiaorui Zhao, Keze Wang, Leida Li, Shuhang Gu,
- Abstract要約: Vision Transformerは、低解像度のシーケンスで欠落した詳細を復元することに成功した。
VSRの精度が優れているにもかかわらず、計算負荷と大きなメモリフットプリントはトランスフォーマーベースのVSRモデルの展開を妨げる。
マスク内およびフレーム間アテンション(MIA-VSR)を用いた新しい特徴レベルマスキング処理フレームワークを提案する。
- 参考スコア(独自算出の注目度): 46.74923772450212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Vision Transformer has achieved great success in recovering missing details in low-resolution sequences, i.e., the video super-resolution (VSR) task. Despite its superiority in VSR accuracy, the heavy computational burden as well as the large memory footprint hinder the deployment of Transformer-based VSR models on constrained devices. In this paper, we address the above issue by proposing a novel feature-level masked processing framework: VSR with Masked Intra and inter frame Attention (MIA-VSR). The core of MIA-VSR is leveraging feature-level temporal continuity between adjacent frames to reduce redundant computations and make more rational use of previously enhanced SR features. Concretely, we propose an intra-frame and inter-frame attention block which takes the respective roles of past features and input features into consideration and only exploits previously enhanced features to provide supplementary information. In addition, an adaptive block-wise mask prediction module is developed to skip unimportant computations according to feature similarity between adjacent frames. We conduct detailed ablation studies to validate our contributions and compare the proposed method with recent state-of-the-art VSR approaches. The experimental results demonstrate that MIA-VSR improves the memory and computation efficiency over state-of-the-art methods, without trading off PSNR accuracy. The code is available at https://github.com/LabShuHangGU/MIA-VSR.
- Abstract(参考訳): 近年、Vision Transformerは低解像度のシーケンス、すなわちビデオ超解像(VSR)タスクの欠落した詳細を復元することに成功した。
VSRの精度が優れているにもかかわらず、計算上の重荷と大きなメモリフットプリントは、TransformerベースのVSRモデルを制約されたデバイスに配置することを妨げている。
本稿では,Masked Intra and Inter frame Attention (MIA-VSR) を用いた新しい機能レベルのマスク処理フレームワークを提案する。
MIA-VSRのコアは、隣接するフレーム間の特徴レベルの時間的連続性を利用して冗長な計算を減らし、以前拡張されたSR特徴をより合理的に活用することである。
具体的には,過去の特徴と入力特徴のそれぞれの役割を考慮に入れたフレーム内およびフレーム間アテンションブロックを提案する。
さらに、隣接するフレーム間の特徴的類似性に応じて、重要でない計算をスキップする適応ブロックワイドマスク予測モジュールを開発した。
我々は,提案手法を最近の最先端のVSR手法と比較するため,詳細なアブレーション研究を行っている。
実験の結果,MIA-VSRはPSNRの精度を落とさずに,最先端手法よりもメモリと計算効率を向上することが示された。
コードはhttps://github.com/LabShuHangGU/MIA-VSRで公開されている。
関連論文リスト
- Arbitrary-Scale Video Super-Resolution with Structural and Textural Priors [80.92195378575671]
Arbitraスケール超解像(AVSR)の強いベースラインについて述べる。
次に、事前学習したVGGネットワークから計算したマルチスケールの構造とテクスチャをベースラインに組み込むことにより、ST-AVSRを導入する。
総合的な実験により、ST-AVSRは最先端技術よりも超解像品質、一般化能力、推論速度を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-07-13T15:27:39Z) - Enhancing Perceptual Quality in Video Super-Resolution through Temporally-Consistent Detail Synthesis using Diffusion Models [17.570136632211693]
本稿では,リアルタイムかつ時間的に一貫性のある細部を合成することにより,高画質映像の知覚品質を向上させるためのDMに基づくVSR手法であるStableVSRを提案する。
本稿では,既存のVSRの最先端手法と比較して,時間的整合性を向上しつつ,高画質映像の知覚品質を高める上でのStableVSRの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-27T15:14:38Z) - Efficient Semantic Segmentation by Altering Resolutions for Compressed
Videos [42.944135041061166]
本稿では,効率的な映像分割を実現するために,圧縮ビデオのためのAR-Segと呼ばれる修正解像度フレームワークを提案する。
AR-Segは、非キーフレームに対して低解像度を使用することで、計算コストを削減することを目的としている。
CamVidとCityscapesの実験によると、AR-Segは最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-13T15:58:15Z) - Sliding Window Recurrent Network for Efficient Video Super-Resolution [0.0]
ビデオ超解像(VSR)は、高解像度のフレームを低解像度の入力列から復元するタスクである。
本研究では,テキストスライディングウィンドウをベースとしたリカレントネットワーク(SWRN)を提案する。
筆者らはREDSデータセットを用いて,提案手法をモバイルデバイスに適用し,視覚的に快適な結果が得られることを示した。
論文 参考訳(メタデータ) (2022-08-24T15:23:44Z) - Boosting Video Super Resolution with Patch-Based Temporal Redundancy
Optimization [46.833568886576074]
静止物体と背景を持つパッチにおける時間的冗長性の影響について論じる。
我々は,既存の局所的および非局所的伝搬型VSRアルゴリズムの性能向上のための,シンプルで効果的な2つのプラグアンドプレイ法を開発した。
論文 参考訳(メタデータ) (2022-07-18T15:11:18Z) - Fast Online Video Super-Resolution with Deformable Attention Pyramid [172.16491820970646]
ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。
変形性アテンションピラミッド(DAP)に基づく繰り返しVSRアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-03T17:49:04Z) - BasicVSR: The Search for Essential Components in Video Super-Resolution
and Beyond [75.62146968824682]
ビデオ超解像(VSR)アプローチは、画像よりも多くのコンポーネントを持つ傾向がある。
高速化と回復性の向上を図った簡潔なパイプライン「BasicVSR」について述べる。
論文 参考訳(メタデータ) (2020-12-03T18:56:14Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。