論文の概要: Dynamic Frame Interpolation in Wavelet Domain
- arxiv url: http://arxiv.org/abs/2309.03508v2
- Date: Thu, 21 Sep 2023 02:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 18:34:15.776240
- Title: Dynamic Frame Interpolation in Wavelet Domain
- Title(参考訳): ウェーブレット領域における動的フレーム補間
- Authors: Lingtong Kong, Boyuan Jiang, Donghao Luo, Wenqing Chu, Ying Tai,
Chengjie Wang, Jie Yang
- Abstract要約: ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
- 参考スコア(独自算出の注目度): 57.25341639095404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video frame interpolation is an important low-level vision task, which can
increase frame rate for more fluent visual experience. Existing methods have
achieved great success by employing advanced motion models and synthesis
networks. However, the spatial redundancy when synthesizing the target frame
has not been fully explored, that can result in lots of inefficient
computation. On the other hand, the computation compression degree in frame
interpolation is highly dependent on both texture distribution and scene
motion, which demands to understand the spatial-temporal information of each
input frame pair for a better compression degree selection. In this work, we
propose a novel two-stage frame interpolation framework termed WaveletVFI to
address above problems. It first estimates intermediate optical flow with a
lightweight motion perception network, and then a wavelet synthesis network
uses flow aligned context features to predict multi-scale wavelet coefficients
with sparse convolution for efficient target frame reconstruction, where the
sparse valid masks that control computation in each scale are determined by a
crucial threshold ratio. Instead of setting a fixed value like previous
methods, we find that embedding a classifier in the motion perception network
to learn a dynamic threshold for each sample can achieve more computation
reduction with almost no loss of accuracy. On the common high resolution and
animation frame interpolation benchmarks, proposed WaveletVFI can reduce
computation up to 40% while maintaining similar accuracy, making it perform
more efficiently against other state-of-the-arts. Code is available at
https://github.com/ltkong218/WaveletVFI.
- Abstract(参考訳): ビデオフレーム補間は、より流動的な視覚体験のためにフレームレートを向上させる重要な低レベル視覚タスクである。
既存の手法は高度な動きモデルと合成ネットワークを用いることで大きな成功を収めた。
しかし、対象のフレームを合成する際の空間的冗長性は十分に調べられておらず、多くの非効率な計算をもたらす可能性がある。
一方、フレーム補間における計算圧縮度はテクスチャ分布とシーン動作の両方に大きく依存しており、各入力フレームペアの時空間情報をより良い圧縮度選択のために理解する必要がある。
本稿では、上記の問題に対処するために、waveletvfiと呼ばれる2段階フレーム補間フレームワークを提案する。
まず、軽量な動き知覚ネットワークを用いて中間光流を推定し、次いでウェーブレット合成ネットワークは、フロー整列コンテキスト特徴を用いて、効率的な目標フレーム再構成のためのスパース畳み込みによるマルチスケールウェーブレット係数を予測し、各スケールでの計算を制御するスパース有効マスクを決定しきい値比で決定する。
従来の手法のように固定値を設定する代わりに,動作知覚ネットワークに分類器を埋め込んで各サンプルの動的閾値を学習することで,精度をほぼ損なわずに計算精度を向上できることがわかった。
一般的な高解像度およびアニメーションフレーム補間ベンチマークでは、提案されたWaveletVFIは、類似した精度を維持しながら40%まで計算を削減できるため、他の最先端技術に対してより効率的に動作する。
コードはhttps://github.com/ltkong218/WaveletVFIで入手できる。
関連論文リスト
- Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Video Frame Interpolation with Many-to-many Splatting and Spatial
Selective Refinement [83.60486465697318]
本稿では,フレームを効率的に補間するM2Mスプレイティングフレームワークを提案する。
入力フレームペアごとに、M2Mは任意の数のフレーム間を補間する際の計算オーバーヘッドが極小である。
フレキシブルな空間選択リファインメント(Spatial Selective Refinement)コンポーネントを導入して,M2M++フレームワークを拡張した。
論文 参考訳(メタデータ) (2023-10-29T09:09:32Z) - IDO-VFI: Identifying Dynamics via Optical Flow Guidance for Video Frame
Interpolation with Events [14.098949778274733]
イベントカメラは、フレーム間のダイナミクスを極めて高い時間分解能で捉えるのに最適である。
IDO-VFIというイベント・アンド・フレームベースのビデオフレーム方式を提案する。
提案手法は,Vimeo90Kデータセット上での計算時間と計算労力をそれぞれ10%と17%削減しつつ,高品質な性能を維持する。
論文 参考訳(メタデータ) (2023-05-17T13:22:21Z) - Progressive Motion Context Refine Network for Efficient Video Frame
Interpolation [10.369068266836154]
フローベースフレーム法は、まず、ターゲットフレームと入力フレームの間の光フローをモデル化し、次いで、ターゲットフレーム生成のための合成ネットワークを構築することで、大きな成功を収めた。
本稿では,動き場と画像コンテキストを協調的に予測し,高い効率性を実現するための新しいプログレッシブ・モーション・コンテキスト・リファイン・ネットワーク(PMCRNet)を提案する。
複数のベンチマーク実験により、提案手法は好意的かつ定量的な結果を得るだけでなく、モデルのサイズや実行時間を大幅に短縮することが示された。
論文 参考訳(メタデータ) (2022-11-11T06:29:03Z) - Enhanced Bi-directional Motion Estimation for Video Frame Interpolation [0.05541644538483946]
本稿では,動画フレーム推定のための新しいアルゴリズムを提案する。
提案手法は,広い範囲の動画フレームベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-17T06:08:43Z) - Long-term Video Frame Interpolation via Feature Propagation [95.18170372022703]
ビデオフレーム(VFI)は、まず入力間の動きを推定し、次に推定された動きで入力を目標時間にワープすることで、中間フレーム(s)を予測する。
入力シーケンス間の時間的距離が増加すると、このアプローチは最適ではない。
本稿では,従来の特徴レベルの予測を新しいモーション・トゥ・フェース・アプローチで拡張した伝搬ネットワーク(PNet)を提案する。
論文 参考訳(メタデータ) (2022-03-29T10:47:06Z) - FILM: Frame Interpolation for Large Motion [20.04001872133824]
本稿では,2つの入力画像から複数の中間フレームを合成するフレームアルゴリズムを提案する。
提案手法は,Xiph大運動ベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-02-10T08:48:18Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。