論文の概要: Recurrent Video Restoration Transformer with Guided Deformable Attention
- arxiv url: http://arxiv.org/abs/2206.02146v1
- Date: Sun, 5 Jun 2022 10:36:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 17:11:12.641969
- Title: Recurrent Video Restoration Transformer with Guided Deformable Attention
- Title(参考訳): ガイド付き変形性アテンション付きリカレントビデオ再生変換器
- Authors: Jingyun Liang and Yuchen Fan and Xiaoyu Xiang and Rakesh Ranjan and
Eddy Ilg and Simon Green and Jiezhang Cao and Kai Zhang and Radu Timofte and
Luc Van Gool
- Abstract要約: 本稿では,グローバルなリカレントフレームワーク内で,隣接するフレームを並列に処理するRVRTを提案する。
RVRTは、バランスの取れたモデルサイズ、メモリとランタイムをテストするベンチマークデータセット上で、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 116.1684355529431
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video restoration aims at restoring multiple high-quality frames from
multiple low-quality frames. Existing video restoration methods generally fall
into two extreme cases, i.e., they either restore all frames in parallel or
restore the video frame by frame in a recurrent way, which would result in
different merits and drawbacks. Typically, the former has the advantage of
temporal information fusion. However, it suffers from large model size and
intensive memory consumption; the latter has a relatively small model size as
it shares parameters across frames; however, it lacks long-range dependency
modeling ability and parallelizability. In this paper, we attempt to integrate
the advantages of the two cases by proposing a recurrent video restoration
transformer, namely RVRT. RVRT processes local neighboring frames in parallel
within a globally recurrent framework which can achieve a good trade-off
between model size, effectiveness, and efficiency. Specifically, RVRT divides
the video into multiple clips and uses the previously inferred clip feature to
estimate the subsequent clip feature. Within each clip, different frame
features are jointly updated with implicit feature aggregation. Across
different clips, the guided deformable attention is designed for clip-to-clip
alignment, which predicts multiple relevant locations from the whole inferred
clip and aggregates their features by the attention mechanism. Extensive
experiments on video super-resolution, deblurring, and denoising show that the
proposed RVRT achieves state-of-the-art performance on benchmark datasets with
balanced model size, testing memory and runtime.
- Abstract(参考訳): ビデオ復元は、複数の低品質フレームから複数の高品質フレームを復元することを目的としている。
既存のビデオ復元法は、通常、全てのフレームを並列に復元するか、フレームごとに再帰的に復元するかの2つの極端なケースに分類され、異なるメリットと欠点をもたらす。
典型的には、前者は時間情報融合の利点がある。
しかし、大きなモデルサイズと集中メモリ消費に苦しむ;後者はフレーム間でパラメータを共有するため、モデルサイズが比較的小さい;しかし、長距離の依存性モデリング能力と並列化性が欠けている。
本稿では,リカレントビデオ再生変換器であるRVRTを提案することによって,この2つの事例の利点を統合する。
RVRTは、グローバルにリカレントなフレームワーク内で、近隣のフレームを並列に処理し、モデルのサイズ、有効性、効率のよいトレードオフを達成する。
具体的には、rvrtはビデオを複数のクリップに分割し、前述したクリップ機能を使って次のクリップ機能を推定する。
各クリップ内では、異なるフレーム機能と暗黙の機能集約が共同で更新される。
異なるクリップにまたがって、ガイド付き変形可能なアテンションはクリップからクリップへのアライメントのために設計されており、推定されたクリップ全体から複数の関連する位置を予測し、アテンションメカニズムによってそれらの特徴を集約する。
ビデオスーパーレゾリューション、デブラリング、デノイジングに関する広範な実験により、提案されたrvrtは、モデルサイズ、メモリテスト、ランタイムのバランスのとれたベンチマークデータセットで最先端のパフォーマンスを達成していることが示された。
関連論文リスト
- RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - Temporal Consistency Learning of inter-frames for Video Super-Resolution [38.26035126565062]
ビデオ超解像(VSR)は、低解像度(LR)参照フレームと複数の隣接フレームから高解像度(HR)フレームを再構成することを目的としたタスクである。
既存の手法は一般に情報伝達とフレームアライメントを探求し、VSRの性能を向上させる。
本稿では,再建されたビデオの一貫性を高めるため,VSRのための時間一貫性学習ネットワーク(TCNet)を提案する。
論文 参考訳(メタデータ) (2022-11-03T08:23:57Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Revisiting Temporal Alignment for Video Restoration [39.05100686559188]
長時間の時間的アライメントは、ビデオ復元作業には不可欠だが、難しい。
本稿では, 段階的な修正手法を応用した, 新規で汎用的な反復的アライメントモジュールを提案する。
本モデルは,映像復元タスクの多種多様なベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-11-30T11:08:52Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。