論文の概要: Three-Stage Cascade Framework for Blurry Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2310.05383v1
- Date: Mon, 9 Oct 2023 03:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 07:49:33.336622
- Title: Three-Stage Cascade Framework for Blurry Video Frame Interpolation
- Title(参考訳): ブラリービデオフレーム補間のための3段階カスケードフレームワーク
- Authors: Pengcheng Lei, Zaoming Yan, Tingting Wang, Faming Fang and Guixu Zhang
- Abstract要約: Blurry Video frame (BVFI)は、低フレームレートのぼやけたビデオから高フレームレートのクリアなビデオを生成することを目的としている。
BVFIメソッドは通常、すべての貴重な情報を十分に活用できないため、最終的にはパフォーマンスを損なう。
本稿では,ぼやけたビデオから有用な情報を完全に探求する,シンプルなエンドツーエンドの3段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.38547327916875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Blurry video frame interpolation (BVFI) aims to generate high-frame-rate
clear videos from low-frame-rate blurry videos, is a challenging but important
topic in the computer vision community. Blurry videos not only provide spatial
and temporal information like clear videos, but also contain additional motion
information hidden in each blurry frame. However, existing BVFI methods usually
fail to fully leverage all valuable information, which ultimately hinders their
performance. In this paper, we propose a simple end-to-end three-stage
framework to fully explore useful information from blurry videos. The frame
interpolation stage designs a temporal deformable network to directly sample
useful information from blurry inputs and synthesize an intermediate frame at
an arbitrary time interval. The temporal feature fusion stage explores the
long-term temporal information for each target frame through a bi-directional
recurrent deformable alignment network. And the deblurring stage applies a
transformer-empowered Taylor approximation network to recursively recover the
high-frequency details. The proposed three-stage framework has clear task
assignment for each module and offers good expandability, the effectiveness of
which are demonstrated by various experimental results. We evaluate our model
on four benchmarks, including the Adobe240 dataset, GoPro dataset, YouTube240
dataset and Sony dataset. Quantitative and qualitative results indicate that
our model outperforms existing SOTA methods. Besides, experiments on real-world
blurry videos also indicate the good generalization ability of our model.
- Abstract(参考訳): Blurry Video frame interpolation (BVFI)は、低フレームレートのぼやけたビデオから高フレームレートのクリアなビデオを生成することを目的としている。
ぼやけたビデオは、クリアなビデオのような空間的および時間的な情報を提供するだけでなく、ぼやけたフレームに隠された追加のモーション情報を含んでいる。
しかしながら、既存のBVFIメソッドは通常、すべての貴重な情報を十分に活用できないため、最終的にはパフォーマンスを損なう。
本稿では,ぼやけたビデオから有用な情報を完全に探索する,シンプルなエンドツーエンドの3段階フレームワークを提案する。
フレーム補間ステージは、ぼやけた入力から有用な情報を直接サンプリングし、任意の時間間隔で中間フレームを合成するための時間変形可能なネットワークを設計する。
時間的特徴融合ステージは、双方向のリカレント変形可能なアライメントネットワークを介して、各対象フレームの長期時間情報を探索する。
そして、デブロアリング段階は、変換器を内蔵したテイラー近似ネットワークを適用し、高周波の詳細を再帰的に復元する。
提案した3段階のフレームワークは各モジュールに対して明確なタスク割り当てを持ち,優れた拡張性を提供し,その有効性は様々な実験結果によって実証されている。
我々はAdobe240データセット、GoProデータセット、YouTube240データセット、Sonyデータセットの4つのベンチマークでモデルを評価した。
定量的および定性的な結果は、我々のモデルが既存のSOTA法より優れていることを示している。
さらに,実世界のぼやけた映像に対する実験は,モデルの優れた一般化能力を示している。
関連論文リスト
- CMTA: Cross-Modal Temporal Alignment for Event-guided Video Deblurring [44.30048301161034]
ビデオデブロアリングは、隣接するビデオフレームから情報を集めることで、モーションレッドビデオの復元結果の品質を高めることを目的としている。
1) フレーム内機能拡張は, 単一のぼやけたフレームの露出時間内で動作し, 2) フレーム間時間的特徴アライメントは, 重要な長期時間情報を対象のフレームに収集する。
提案手法は, 合成および実世界のデブロアリングデータセットを用いた広範囲な実験により, 最先端のフレームベースおよびイベントベース動作デブロアリング法より優れていることを示す。
論文 参考訳(メタデータ) (2024-08-27T10:09:17Z) - LoopAnimate: Loopable Salient Object Animation [19.761865029125524]
LoopAnimateは、一貫した開始フレームと終了フレームでビデオを生成する新しい方法である。
忠実度や時間的整合性,主観評価結果など,両指標の最先端性を実現している。
論文 参考訳(メタデータ) (2024-04-14T07:36:18Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Aggregating Long-term Sharp Features via Hybrid Transformers for Video
Deblurring [76.54162653678871]
本稿では,特徴集約のためのハイブリッドトランスフォーマーを用いて,隣接するフレームとシャープフレームの両方を活用するビデオデブロアリング手法を提案する。
提案手法は,定量的な計測値と視覚的品質の観点から,最先端のビデオデブロアリング法,およびイベント駆動ビデオデブロアリング法より優れる。
論文 参考訳(メタデータ) (2023-09-13T16:12:11Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Temporal-Spatial Feature Pyramid for Video Saliency Detection [2.578242050187029]
ビデオサリエンシー検出のための3D完全畳み込みエンコーダデコーダアーキテクチャを提案する。
私たちのモデルはシンプルかつ効果的で、リアルタイムで実行できます。
論文 参考訳(メタデータ) (2021-05-10T09:14:14Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。