論文の概要: Learning Trajectory-Aware Transformer for Video Super-Resolution
- arxiv url: http://arxiv.org/abs/2204.04216v1
- Date: Fri, 8 Apr 2022 03:37:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 17:44:21.075086
- Title: Learning Trajectory-Aware Transformer for Video Super-Resolution
- Title(参考訳): ビデオ・スーパーレゾリューションのための学習軌跡認識トランスフォーマ
- Authors: Chengxu Liu, Huan Yang, Jianlong Fu, Xueming Qian
- Abstract要約: ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
- 参考スコア(独自算出の注目度): 50.49396123016185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video super-resolution (VSR) aims to restore a sequence of high-resolution
(HR) frames from their low-resolution (LR) counterparts. Although some progress
has been made, there are grand challenges to effectively utilize temporal
dependency in entire video sequences. Existing approaches usually align and
aggregate video frames from limited adjacent frames (e.g., 5 or 7 frames),
which prevents these approaches from satisfactory results. In this paper, we
take one step further to enable effective spatio-temporal learning in videos.
We propose a novel Trajectory-aware Transformer for Video Super-Resolution
(TTVSR). In particular, we formulate video frames into several pre-aligned
trajectories which consist of continuous visual tokens. For a query token,
self-attention is only learned on relevant visual tokens along spatio-temporal
trajectories. Compared with vanilla vision Transformers, such a design
significantly reduces the computational cost and enables Transformers to model
long-range features. We further propose a cross-scale feature tokenization
module to overcome scale-changing problems that often occur in long-range
videos. Experimental results demonstrate the superiority of the proposed TTVSR
over state-of-the-art models, by extensive quantitative and qualitative
evaluations in four widely-used video super-resolution benchmarks. Both code
and pre-trained models can be downloaded at
https://github.com/researchmm/TTVSR.
- Abstract(参考訳): ビデオ超解像(VSR)は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
ある程度の進展はあるものの、ビデオシーケンス全体の時間依存を効果的に活用する大きな課題がある。
既存のアプローチは通常、制限された隣接するフレーム(例えば5または7フレーム)からビデオフレームを調整して集約する。
本稿では,映像における時空間学習の有効化に向けて,さらに一歩踏み出す。
ビデオ超解像用トラジェクトリ対応トランスフォーマ(TTVSR)を提案する。
特に,ビデオフレームを連続的な視覚的トークンからなる事前整列軌道に定式化する。
クエリトークンの場合、自己注意は時空間軌跡に沿った関連する視覚トークンでのみ学習される。
バニラビジョントランスフォーマーと比較して、このような設計は計算コストを大幅に削減し、トランスフォーマーが長距離特性をモデル化できる。
さらに,長距離ビデオでしばしば発生するスケール変更問題を克服する,クロススケールな機能トークン化モジュールを提案する。
実験結果から,提案するttvsrの最先端モデルに対する優位性を,広範に使用されている4種類のビデオ超解像ベンチマークを用いた定量的・質的評価により実証した。
コードと事前訓練されたモデルはhttps://github.com/researchmm/TTVSRでダウンロードできる。
関連論文リスト
- TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Retargeting video with an end-to-end framework [14.270721529264929]
本稿では,動画を任意の比率に再ターゲティングするためのエンドツーエンドのRETVI手法を提案する。
私たちのシステムは、以前よりも品質と実行時間で優れています。
論文 参考訳(メタデータ) (2023-11-08T04:56:41Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - VDTR: Video Deblurring with Transformer [24.20183395758706]
ビデオブレアリングは、挑戦的な時間的モデリングプロセスのため、未解決の問題である。
本稿では,トランスフォーマービデオの導出に適応する有効なトランスフォーマーモデルであるVDTRを提案する。
論文 参考訳(メタデータ) (2022-04-17T14:22:14Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。