論文の概要: ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation
- arxiv url: http://arxiv.org/abs/2009.01005v1
- Date: Mon, 31 Aug 2020 21:11:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 07:01:07.327834
- Title: ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation
- Title(参考訳): ALANET:Joint Video DeblurringとInterpolationのためのAdaptive Latent Attention Network
- Authors: Akash Gupta, Abhishek Aich, Amit K. Roy-Chowdhury
- Abstract要約: シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
- 参考スコア(独自算出の注目度): 38.52446103418748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing works address the problem of generating high frame-rate sharp videos
by separately learning the frame deblurring and frame interpolation modules.
Most of these approaches have a strong prior assumption that all the input
frames are blurry whereas in a real-world setting, the quality of frames
varies. Moreover, such approaches are trained to perform either of the two
tasks - deblurring or interpolation - in isolation, while many practical
situations call for both. Different from these works, we address a more
realistic problem of high frame-rate sharp video synthesis with no prior
assumption that input is always blurry. We introduce a novel architecture,
Adaptive Latent Attention Network (ALANET), which synthesizes sharp high
frame-rate videos with no prior knowledge of input frames being blurry or not,
thereby performing the task of both deblurring and interpolation. We
hypothesize that information from the latent representation of the consecutive
frames can be utilized to generate optimized representations for both frame
deblurring and frame interpolation. Specifically, we employ combination of
self-attention and cross-attention module between consecutive frames in the
latent space to generate optimized representation for each frame. The optimized
representation learnt using these attention modules help the model to generate
and interpolate sharp frames. Extensive experiments on standard datasets
demonstrate that our method performs favorably against various state-of-the-art
approaches, even though we tackle a much more difficult problem.
- Abstract(参考訳): 既存の作業は、フレーム分割とフレーム補間モジュールを別々に学習することで、高フレームレートのシャープビデオを生成する問題に対処する。
これらのアプローチの多くは、全ての入力フレームがぼやけているという強い前提を持っているが、現実の環境ではフレームの品質は異なる。
さらに、このようなアプローチは2つのタスク(脱臭または補間)を単独で実行するように訓練され、多くの実践的な状況では両方を要求される。
これらの作品と異なり、入力が常にぼやけているという前提もなく、高フレームレートのシャープビデオ合成のより現実的な問題に対処する。
本稿では,入力フレームがぼやけているか否かを事前に知ることなく,シャープな高フレームレート映像を合成し,デブロアと補間の両方を行う新しいアーキテクチャであるアダプティブ遅延注意ネットワーク(ALANET)を提案する。
逐次フレームの潜在表現からの情報は、フレームデブラリングとフレーム補間の両方に最適化された表現を生成するために利用できると仮定する。
具体的には,潜在空間内の連続するフレーム間において,自己アテンションとクロスアテンションモジュールの組み合わせを用いて,各フレームに対して最適な表現を生成する。
これらの注目モジュールを使って学習した最適化された表現は、シャープフレームの生成と補間に役立つ。
標準データセットに対する大規模な実験により、我々の手法はより難しい問題に取り組みながら、様々な最先端のアプローチに対して好適に機能することを示した。
関連論文リスト
- ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z) - Deep Sketch-guided Cartoon Video Inbetweening [24.00033622396297]
本研究では,ユーザスケッチに案内されたアニメーションの動きに追従しながら,2つの入力から色情報を取得することで,マンガ映像を生成するフレームワークを提案する。
フレームとスケッチの対応性を明示的に考慮することにより,他の画像合成法よりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2020-08-10T14:22:04Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。