論文の概要: VRT: A Video Restoration Transformer
- arxiv url: http://arxiv.org/abs/2201.12288v1
- Date: Fri, 28 Jan 2022 17:54:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 16:11:06.339413
- Title: VRT: A Video Restoration Transformer
- Title(参考訳): VRT:ビデオ再生用トランス
- Authors: Jingyun Liang and Jiezhang Cao and Yuchen Fan and Kai Zhang and Rakesh
Ranjan and Yawei Li and Radu Timofte and Luc Van Gool
- Abstract要約: ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
- 参考スコア(独自算出の注目度): 126.79589717404863
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video restoration (e.g., video super-resolution) aims to restore high-quality
frames from low-quality frames. Different from single image restoration, video
restoration generally requires to utilize temporal information from multiple
adjacent but usually misaligned video frames. Existing deep methods generally
tackle with this by exploiting a sliding window strategy or a recurrent
architecture, which either is restricted by frame-by-frame restoration or lacks
long-range modelling ability. In this paper, we propose a Video Restoration
Transformer (VRT) with parallel frame prediction and long-range temporal
dependency modelling abilities. More specifically, VRT is composed of multiple
scales, each of which consists of two kinds of modules: temporal mutual self
attention (TMSA) and parallel warping. TMSA divides the video into small clips,
on which mutual attention is applied for joint motion estimation, feature
alignment and feature fusion, while self attention is used for feature
extraction. To enable cross-clip interactions, the video sequence is shifted
for every other layer. Besides, parallel warping is used to further fuse
information from neighboring frames by parallel feature warping. Experimental
results on three tasks, including video super-resolution, video deblurring and
video denoising, demonstrate that VRT outperforms the state-of-the-art methods
by large margins ($\textbf{up to 2.16dB}$) on nine benchmark datasets.
- Abstract(参考訳): ビデオ復元(ビデオスーパーレゾリューション)は、高品質のフレームを低品質のフレームから復元することを目的としている。
単一の画像復元とは異なり、ビデオ復元は通常、隣接する複数のビデオフレームの時間的情報を利用する必要がある。
既存のディープメソッドは、スライディングウィンドウ戦略やリカレントアーキテクチャを利用して、フレーム毎の復元や長距離モデリング能力の欠如によって制限される。
本稿では,並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
より具体的には、VRTは複数のスケールから構成されており、それぞれが時間的相互自己注意(TMSA)と並列ワープの2種類のモジュールで構成されている。
tmsaは動画を小さなクリップに分割し、相互注意を関節の動きの推定、特徴のアライメント、特徴の融合に応用し、自己注意を特徴抽出に使用する。
クロスクリップインタラクションを可能にするために、ビデオシーケンスを他のレイヤ毎にシフトする。
また、並列処理は、隣接するフレームからの情報を並列特徴ワープによってさらに融合するために用いられる。
ビデオスーパーレゾリューション、ビデオデブロアリング、ビデオデノーミングを含む3つのタスクの実験結果は、VRTが9つのベンチマークデータセットで最先端の手法よりも大きなマージン($2.16dB}$)で優れていることを示した。
関連論文リスト
- ViStripformer: A Token-Efficient Transformer for Versatile Video
Restoration [42.356013390749204]
ViStripformerは、バニラトランスよりもメモリ使用量がはるかに少ない、効率的かつ効率的なトランスアーキテクチャである。
ビデオフレームを水平方向と垂直方向のストリップ状の特徴に分解し,様々な方向や大きさの劣化パターンに対処する。
論文 参考訳(メタデータ) (2023-12-22T08:05:38Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - Aggregating Long-term Sharp Features via Hybrid Transformers for Video
Deblurring [76.54162653678871]
本稿では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - Task Agnostic Restoration of Natural Video Dynamics [10.078712109708592]
多くのビデオ復元・翻訳タスクでは、各フレームを独立して処理することにより、画像処理操作を映像領域に「ナビ」拡張する。
本稿では,不整合ビデオから一貫した動きのダイナミクスを推論し,活用して時間的フリックを緩和する,このタスクのための一般的なフレームワークを提案する。
提案フレームワークは、多数の画像処理アプリケーションによって処理される2つのベンチマークデータセット、DAVISとvidevo.net上でSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-06-08T09:00:31Z) - Recurrent Video Restoration Transformer with Guided Deformable Attention [116.1684355529431]
本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。
RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-05T10:36:09Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video
Super-Resolution [100.11355888909102]
時空ビデオ超解像度は低解像度(LR)と低フレームレート(LFR)ビデオシーケンスから高解像度(HR)スローモーションビデオを生成することを目的としている。
入力LRおよびLFRビデオから直接HRスローモーション映像シーケンスを再構成できる一段階の時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:23Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。