論文の概要: LADDER: An Efficient Framework for Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2404.11108v1
- Date: Wed, 17 Apr 2024 06:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 15:04:52.098289
- Title: LADDER: An Efficient Framework for Video Frame Interpolation
- Title(参考訳): LADDER: ビデオフレーム補間のための効率的なフレームワーク
- Authors: Tong Shen, Dong Li, Ziheng Gao, Lu Tian, Emad Barsoum,
- Abstract要約: ビデオフレーム補間(VFI)は、スローモーション生成、フレームレート変換、ビデオフレーム復元など、様々な応用において重要な技術である。
本稿では,効率と品質のバランスをとることを目的とした,効率的なビデオフレームフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.039193291203492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Frame Interpolation (VFI) is a crucial technique in various applications such as slow-motion generation, frame rate conversion, video frame restoration etc. This paper introduces an efficient video frame interpolation framework that aims to strike a favorable balance between efficiency and quality. Our framework follows a general paradigm consisting of a flow estimator and a refinement module, while incorporating carefully designed components. First of all, we adopt depth-wise convolution with large kernels in the flow estimator that simultaneously reduces the parameters and enhances the receptive field for encoding rich context and handling complex motion. Secondly, diverging from a common design for the refinement module with a UNet-structure (encoder-decoder structure), which we find redundant, our decoder-only refinement module directly enhances the result from coarse to fine features, offering a more efficient process. In addition, to address the challenge of handling high-definition frames, we also introduce an innovative HD-aware augmentation strategy during training, leading to consistent enhancement on HD images. Extensive experiments are conducted on diverse datasets, Vimeo90K, UCF101, Xiph and SNU-FILM. The results demonstrate that our approach achieves state-of-the-art performance with clear improvement while requiring much less FLOPs and parameters, reaching to a better spot for balancing efficiency and quality.
- Abstract(参考訳): ビデオフレーム補間(VFI)は、スローモーション生成、フレームレート変換、ビデオフレーム復元など、様々な応用において重要な技術である。
本稿では,効率と品質のバランスをとることを目的とした,効率的なビデオフレーム補間フレームワークを提案する。
本フレームワークは,フロー推定器と改良モジュールから構成される汎用パラダイムを踏襲し,慎重に設計したコンポーネントを取り入れた。
まず,フロー推定器において,パラメータを同時に削減し,リッチなコンテキストを符号化し,複雑な動きを扱うための受容場を向上する,大きなカーネルとの深度ワイドな畳み込みを導入する。
第二に、UNet構造(エンコーダ・デコーダ構造)を持つリファインメントモジュールの共通設計から冗長なデコーダのみのリファインメントモジュールは、粗い機能から細かい機能への結果を直接的に強化し、より効率的なプロセスを提供する。
また,高精細フレームを扱うことの課題に対処するため,訓練中にHD画像に一貫した拡張をもたらす革新的なHD対応強化戦略を導入する。
様々なデータセット、Vimeo90K、UCF101、Xiph、SNU-FILMで大規模な実験が行われた。
その結果,本手法はFLOPやパラメータをはるかに少なくし,効率と品質のバランスをとるためのより良い地点に到達した。
関連論文リスト
- Disentangled Motion Modeling for Video Frame Interpolation [40.83962594702387]
ビデオフレーム(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。
中間動作モデリングに着目して視覚的品質を高めるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を導入する。
論文 参考訳(メタデータ) (2024-06-25T03:50:20Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Continuous Space-Time Video Super-Resolution Utilizing Long-Range
Temporal Information [48.20843501171717]
本稿では,任意のフレームレートと空間解像度に変換可能な連続ST-VSR(CSTVSR)手法を提案する。
本稿では,提案アルゴリズムの柔軟性が向上し,各種データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-02-26T08:02:39Z) - End-to-end Transformer for Compressed Video Quality Enhancement [21.967066471073462]
本稿では,Swin-AutoEncoderをベースとしたSpatio-Temporal Feature Fusion(SSTF)モジュールとChannel-wise Attention based Quality Enhancement(CAQE)モジュールからなる,トランスフォーマーベースの圧縮ビデオ品質向上(TVQE)手法を提案する。
提案手法は,推定速度とGPU消費の両方の観点から既存手法より優れている。
論文 参考訳(メタデータ) (2022-10-25T08:12:05Z) - Neighbor Correspondence Matching for Flow-based Video Frame Synthesis [90.14161060260012]
フローベースフレーム合成のための近傍対応マッチング(NCM)アルゴリズムを提案する。
NCMは現在のフレームに依存しない方法で実行され、各ピクセルの時空間近傍でマルチスケールの対応を確立する。
粗いスケールのモジュールは、近隣の対応を利用して大きな動きを捉えるように設計されている。
論文 参考訳(メタデータ) (2022-07-14T09:17:00Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。