論文の概要: RSTT: Real-time Spatial Temporal Transformer for Space-Time Video
Super-Resolution
- arxiv url: http://arxiv.org/abs/2203.14186v1
- Date: Sun, 27 Mar 2022 02:16:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 15:01:11.216815
- Title: RSTT: Real-time Spatial Temporal Transformer for Space-Time Video
Super-Resolution
- Title(参考訳): RSTT:時空ビデオ超解像のためのリアルタイム時空間変換器
- Authors: Zhicheng Geng, Luming Liang, Tianyu Ding, Ilya Zharkov
- Abstract要約: 時空ビデオ超解像(STVSR)は、低フレームレート(LFR)と低解像度(LR)の両方でビデオを補間し、高フレームレート(HFR)と高解像度(HR)の両方を生成するタスクである。
本研究では,空間的・時間的超分解能モジュールを単一モデルに自然に組み込む空間時間変換器を提案する。
- 参考スコア(独自算出の注目度): 13.089535703790425
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Space-time video super-resolution (STVSR) is the task of interpolating videos
with both Low Frame Rate (LFR) and Low Resolution (LR) to produce
High-Frame-Rate (HFR) and also High-Resolution (HR) counterparts. The existing
methods based on Convolutional Neural Network~(CNN) succeed in achieving
visually satisfied results while suffer from slow inference speed due to their
heavy architectures. We propose to resolve this issue by using a
spatial-temporal transformer that naturally incorporates the spatial and
temporal super resolution modules into a single model. Unlike CNN-based
methods, we do not explicitly use separated building blocks for temporal
interpolations and spatial super-resolutions; instead, we only use a single
end-to-end transformer architecture. Specifically, a reusable dictionary is
built by encoders based on the input LFR and LR frames, which is then utilized
in the decoder part to synthesize the HFR and HR frames. Compared with the
state-of-the-art TMNet \cite{xu2021temporal}, our network is $60\%$ smaller
(4.5M vs 12.3M parameters) and $80\%$ faster (26.2fps vs 14.3fps on
$720\times576$ frames) without sacrificing much performance. The source code is
available at https://github.com/llmpass/RSTT.
- Abstract(参考訳): 時空ビデオ超解像(STVSR)は、低フレームレート(LFR)と低解像度(LR)の両方でビデオを補間し、高フレームレート(HFR)と高解像度(HR)の両方を生成するタスクである。
convolutional neural network~(cnn)に基づく既存の手法は、視覚的に満足した結果を達成するのに成功し、その重いアーキテクチャのために推論速度が遅い。
本稿では,空間的・時間的超分解能モジュールを単一モデルに自然に組み込んだ時空間変換器を用いてこの問題を解決することを提案する。
cnnベースの方法とは異なり、時間的補間や空間的超解像のために分離されたビルディングブロックは明示的に使用せず、代わりに1つのエンドツーエンドトランスフォーマーアーキテクチャのみを使用する。
具体的には、入力されたLFRとLRフレームに基づいてエンコーダで再利用可能な辞書を構築し、デコーダ部で使用してHFRとHRフレームを合成する。
最先端のTMNet \cite{xu2021temporal} と比較すると、我々のネットワークは、パフォーマンスを犠牲にすることなく、60\%$小さく(4.5M対12.3Mパラメータ)80\%$高速(26.2fps対720\times576$フレームで14.3fps)である。
ソースコードはhttps://github.com/llmpass/RSTTで入手できる。
関連論文リスト
- SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。
これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。
実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文 参考訳(メタデータ) (2024-07-22T17:58:04Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - VideoINR: Learning Video Implicit Neural Representation for Continuous
Space-Time Super-Resolution [75.79379734567604]
ビデオインプリシットニューラル表現(Video Implicit Neural Representation, VideoINR)は任意の空間解像度とフレームレートの映像にデコード可能であることを示す。
本稿では,最新のSTVSR手法を用いて,一般的なアップサンプリングスケールにおいて,ビデオINRが競合性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-06-09T17:45:49Z) - STDAN: Deformable Attention Network for Space-Time Video
Super-Resolution [39.18399652834573]
本稿では,STDAN と呼ばれる,STVSR のための変形可能なアテンションネットワークを提案する。
まず、より近隣の入力フレームから豊富なコンテンツを得ることができるLSTFI(long-short term feature)モジュールを考案する。
第2に,空間的・時間的文脈を適応的に捕捉・集約する時空間変形可能特徴集合(STDFA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-14T03:40:35Z) - Temporal Modulation Network for Controllable Space-Time Video
Super-Resolution [66.06549492893947]
宇宙時間のビデオ超解像度は、低解像度と低フレームレートのビデオの空間的および時間的解像度を高めることを目指しています。
変形性畳み込み法は、有望なSTVSR性能を達成したが、トレーニング段階で事前に定義された中間フレームのみを推測することができた。
本稿では,任意の中間フレームを高精度な高分解能再構成で補間する時間変調ネットワーク(tmnet)を提案する。
論文 参考訳(メタデータ) (2021-04-21T17:10:53Z) - Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video
Super-Resolution [100.11355888909102]
時空ビデオ超解像度は低解像度(LR)と低フレームレート(LFR)ビデオシーケンスから高解像度(HR)スローモーションビデオを生成することを目的としている。
入力LRおよびLFRビデオから直接HRスローモーション映像シーケンスを再構成できる一段階の時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-15T17:59:23Z) - Efficient Space-time Video Super Resolution using Low-Resolution Flow
and Mask Upsampling [12.856102293479486]
本稿では,低解像度・低フレームレート映像から高解像度スローモーション映像を生成することを目的とする。
シンプルなソリューションは、Video Super ResolutionとVideo Frameモデルの連続実行です。
我々のモデルは軽量であり、REDS STSR検証セットの最先端モデルよりも性能が良い。
論文 参考訳(メタデータ) (2021-04-12T19:11:57Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。