論文の概要: VDTR: Video Deblurring with Transformer
- arxiv url: http://arxiv.org/abs/2204.08023v1
- Date: Sun, 17 Apr 2022 14:22:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 16:06:09.511164
- Title: VDTR: Video Deblurring with Transformer
- Title(参考訳): VDTR: トランスフォーマーによるビデオの劣化
- Authors: Mingdeng Cao, Yanbo Fan, Yong Zhang, Jue Wang, Yujiu Yang
- Abstract要約: ビデオブレアリングは、挑戦的な時間的モデリングプロセスのため、未解決の問題である。
本稿では,トランスフォーマービデオの導出に適応する有効なトランスフォーマーモデルであるVDTRを提案する。
- 参考スコア(独自算出の注目度): 24.20183395758706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video deblurring is still an unsolved problem due to the challenging
spatio-temporal modeling process. While existing convolutional neural
network-based methods show a limited capacity for effective spatial and
temporal modeling for video deblurring. This paper presents VDTR, an effective
Transformer-based model that makes the first attempt to adapt Transformer for
video deblurring. VDTR exploits the superior long-range and relation modeling
capabilities of Transformer for both spatial and temporal modeling. However, it
is challenging to design an appropriate Transformer-based model for video
deblurring due to the complicated non-uniform blurs, misalignment across
multiple frames and the high computational costs for high-resolution spatial
modeling. To address these problems, VDTR advocates performing attention within
non-overlapping windows and exploiting the hierarchical structure for
long-range dependencies modeling. For frame-level spatial modeling, we propose
an encoder-decoder Transformer that utilizes multi-scale features for
deblurring. For multi-frame temporal modeling, we adapt Transformer to fuse
multiple spatial features efficiently. Compared with CNN-based methods, the
proposed method achieves highly competitive results on both synthetic and
real-world video deblurring benchmarks, including DVD, GOPRO, REDS and BSD. We
hope such a Transformer-based architecture can serve as a powerful alternative
baseline for video deblurring and other video restoration tasks. The source
code will be available at \url{https://github.com/ljzycmd/VDTR}.
- Abstract(参考訳): ビデオのデブロアリングは、時空間モデリングの困難なプロセスのため、未解決の問題である。
既存の畳み込みニューラルネットワークベースの手法では、ビデオデブラリングの有効な空間的および時間的モデリング能力は限られている。
本稿では,ビデオデブロアにトランスフォーマーを適応させる試みを初めて行う,効果的なトランスフォーマーベースモデルであるVDTRを提案する。
vdtrは、空間的および時間的モデリングの両方においてトランスフォーマの優れた長距離および関係モデリング能力を利用する。
しかし,複雑な不均一なボケや複数フレーム間の不一致,高分解能空間モデリングの計算コストなどにより,ビデオデブラリングに適したトランスフォーマモデルの設計は困難である。
これらの問題に対処するため、vdtrは重複しないウィンドウ内で注意を向け、長距離依存関係モデリングで階層構造を活用することを提唱している。
フレームレベルの空間モデリングのために,マルチスケール機能をデブラリングに用いるエンコーダデコーダトランスを提案する。
マルチフレーム時空間モデリングでは,トランスフォーマーを用いて複数の空間特徴を効率的に融合する。
提案手法はCNNベースの手法と比較して,DVD, GOPRO, REDS, BSD など,合成および実世界のビデオデブロアリングベンチマークにおいて高い競争力を発揮する。
トランスフォーマーベースのアーキテクチャが、ビデオの劣化やその他のビデオ復元タスクの強力な代替となることを願っている。
ソースコードは \url{https://github.com/ljzycmd/VDTR} で入手できる。
関連論文リスト
- Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - TubeDETR: Spatio-Temporal Video Grounding with Transformers [89.71617065426146]
与えられたテキストクエリに対応するビデオにおいて、アテンポラルチューブをエンコーダでローカライズする問題について考察する。
この課題に対処するために,テキスト条件付きオブジェクト検出における近年の成功に触発された変換器アーキテクチャであるTubeDETRを提案する。
論文 参考訳(メタデータ) (2022-03-30T16:31:49Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - VideoLightFormer: Lightweight Action Recognition using Transformers [8.871042314510788]
本稿では,新しい軽量なアクション認識アーキテクチャであるVideoLightFormerを提案する。
分解された方法で、2次元畳み込み時間ネットワークを変換器で慎重に拡張する。
我々は,EPIC-KITCHENS-100とSone-SV-V-Something2データセットの高効率設定におけるビデオLightFormerの評価を行った。
論文 参考訳(メタデータ) (2021-07-01T13:55:52Z) - Video Super-Resolution Transformer [85.11270760456826]
ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。
近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが人気を集めている。
本稿では,空間的・時間的畳み込み型自己認識層を理論的に理解し,局所性情報を活用する。
論文 参考訳(メタデータ) (2021-06-12T20:00:32Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。