論文の概要: Video Super-Resolution Transformer with Masked Inter&Intra-Frame
Attention
- arxiv url: http://arxiv.org/abs/2401.06312v2
- Date: Mon, 15 Jan 2024 02:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 11:59:52.009114
- Title: Video Super-Resolution Transformer with Masked Inter&Intra-Frame
Attention
- Title(参考訳): Masked Inter-Intra-Frame Attention を用いた超解像変換器
- Authors: Xingyu Zhou, Leheng Zhang, Xiaorui Zhao, Keze Wang, Leida Li, Shuhang
Gu
- Abstract要約: Vision Transformerは、低解像度のシーケンスで欠落した詳細を復元することに成功した。
VSRの精度が優れているにもかかわらず、計算負荷と大きなメモリフットプリントはトランスフォーマーベースのVSRモデルの展開を妨げる。
マスク内およびフレーム間アテンション(MIA-VSR)を用いた新しい特徴レベルマスキング処理フレームワークを提案する。
- 参考スコア(独自算出の注目度): 49.536231927541124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Vision Transformer has achieved great success in recovering missing
details in low-resolution sequences, i.e., the video super-resolution (VSR)
task. Despite its superiority in VSR accuracy, the heavy computational burden
as well as the large memory footprint hinder the deployment of
Transformer-based VSR models on constrained devices. In this paper, we address
the above issue by proposing a novel feature-level masked processing framework:
VSR with Masked Intra and inter frame Attention (MIA-VSR). The core of MIA-VSR
is leveraging feature-level temporal continuity between adjacent frames to
reduce redundant computations and make more rational use of previously enhanced
SR features. Concretely, we propose an intra-frame and inter-frame attention
block which takes the respective roles of past features and input features into
consideration and only exploits previously enhanced features to provide
supplementary information. In addition, an adaptive block-wise mask prediction
module is developed to skip unimportant computations according to feature
similarity between adjacent frames. We conduct detailed ablation studies to
validate our contributions and compare the proposed method with recent
state-of-the-art VSR approaches. The experimental results demonstrate that
MIA-VSR improves the memory and computation efficiency over state-of-the-art
methods, without trading off PSNR accuracy. The code is available at
https://github.com/LabShuHangGU/MIA-VSR.
- Abstract(参考訳): 近年、Vision Transformerは低解像度のシーケンス、すなわちビデオ超解像(VSR)タスクの欠落した詳細を復元することに成功した。
VSRの精度が優れているにもかかわらず、計算上の重荷と大きなメモリフットプリントは、TransformerベースのVSRモデルを制約されたデバイスに配置することを妨げる。
本稿では,マスク付きイントラフレームおよびインターフレームアテンション(mia-vsr)を備えた新しい機能レベルのマスク処理フレームワークであるvsrを提案する。
MIA-VSRのコアは、隣接するフレーム間の特徴レベルの時間的連続性を利用して冗長な計算を減らし、以前拡張されたSR特徴をより合理的に活用することである。
具体的には,過去の特徴と入力特徴のそれぞれの役割を考慮に入れたフレーム内およびフレーム間アテンションブロックを提案する。
また,隣接フレーム間の特徴類似性に応じて重要でない計算をスキップする適応型ブロックワイズマスク予測モジュールを開発した。
我々は,提案手法を最近の最先端のVSR手法と比較するため,詳細なアブレーション研究を行っている。
実験の結果,MIA-VSRはPSNR精度を落とさずに,最先端手法よりもメモリと計算効率を向上することが示された。
コードはhttps://github.com/LabShuHangGU/MIA-VSRで公開されている。
関連論文リスト
- Arbitrary-Scale Video Super-Resolution with Structural and Textural Priors [80.92195378575671]
Arbitraスケール超解像(AVSR)の強いベースラインについて述べる。
次に、事前学習したVGGネットワークから計算したマルチスケールの構造とテクスチャをベースラインに組み込むことにより、ST-AVSRを導入する。
総合的な実験により、ST-AVSRは最先端技術よりも超解像品質、一般化能力、推論速度を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-07-13T15:27:39Z) - Enhancing Perceptual Quality in Video Super-Resolution through Temporally-Consistent Detail Synthesis using Diffusion Models [17.570136632211693]
本稿では,リアルタイムかつ時間的に一貫性のある細部を合成することにより,高画質映像の知覚品質を向上させるためのDMに基づくVSR手法であるStableVSRを提案する。
本稿では,既存のVSRの最先端手法と比較して,時間的整合性を向上しつつ,高画質映像の知覚品質を高める上でのStableVSRの有効性を実証する。
論文 参考訳(メタデータ) (2023-11-27T15:14:38Z) - Efficient Semantic Segmentation by Altering Resolutions for Compressed
Videos [42.944135041061166]
本稿では,効率的な映像分割を実現するために,圧縮ビデオのためのAR-Segと呼ばれる修正解像度フレームワークを提案する。
AR-Segは、非キーフレームに対して低解像度を使用することで、計算コストを削減することを目的としている。
CamVidとCityscapesの実験によると、AR-Segは最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-13T15:58:15Z) - Sliding Window Recurrent Network for Efficient Video Super-Resolution [0.0]
ビデオ超解像(VSR)は、高解像度のフレームを低解像度の入力列から復元するタスクである。
本研究では,テキストスライディングウィンドウをベースとしたリカレントネットワーク(SWRN)を提案する。
筆者らはREDSデータセットを用いて,提案手法をモバイルデバイスに適用し,視覚的に快適な結果が得られることを示した。
論文 参考訳(メタデータ) (2022-08-24T15:23:44Z) - Boosting Video Super Resolution with Patch-Based Temporal Redundancy
Optimization [46.833568886576074]
静止物体と背景を持つパッチにおける時間的冗長性の影響について論じる。
我々は,既存の局所的および非局所的伝搬型VSRアルゴリズムの性能向上のための,シンプルで効果的な2つのプラグアンドプレイ法を開発した。
論文 参考訳(メタデータ) (2022-07-18T15:11:18Z) - Fast Online Video Super-Resolution with Deformable Attention Pyramid [172.16491820970646]
ビデオスーパーレゾリューション(VSR)には、ビデオストリーミングやテレビなど、厳格な因果性、リアルタイム、レイテンシの制約を課す多くのアプリケーションがある。
変形性アテンションピラミッド(DAP)に基づく繰り返しVSRアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-03T17:49:04Z) - BasicVSR: The Search for Essential Components in Video Super-Resolution
and Beyond [75.62146968824682]
ビデオ超解像(VSR)アプローチは、画像よりも多くのコンポーネントを持つ傾向がある。
高速化と回復性の向上を図った簡潔なパイプライン「BasicVSR」について述べる。
論文 参考訳(メタデータ) (2020-12-03T18:56:14Z) - MuCAN: Multi-Correspondence Aggregation Network for Video
Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。
フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。
VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文 参考訳(メタデータ) (2020-07-23T05:41:27Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。