論文の概要: TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation
- arxiv url: http://arxiv.org/abs/2207.09048v1
- Date: Tue, 19 Jul 2022 03:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 13:49:13.500769
- Title: TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation
- Title(参考訳): TTVFI:ビデオフレーム補間のための軌道認識変換器
- Authors: Chengxu Liu, Huan Yang, Jianlong Fu, Xueming Qian
- Abstract要約: ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
- 参考スコア(独自算出の注目度): 50.49396123016185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video frame interpolation (VFI) aims to synthesize an intermediate frame
between two consecutive frames. State-of-the-art approaches usually adopt a
two-step solution, which includes 1) generating locally-warped pixels by
flow-based motion estimations, 2) blending the warped pixels to form a full
frame through deep neural synthesis networks. However, due to the inconsistent
warping from the two consecutive frames, the warped features for new frames are
usually not aligned, which leads to distorted and blurred frames, especially
when large and complex motions occur. To solve this issue, in this paper we
propose a novel Trajectory-aware Transformer for Video Frame Interpolation
(TTVFI). In particular, we formulate the warped features with inconsistent
motions as query tokens, and formulate relevant regions in a motion trajectory
from two original consecutive frames into keys and values. Self-attention is
learned on relevant tokens along the trajectory to blend the pristine features
into intermediate frames through end-to-end training. Experimental results
demonstrate that our method outperforms other state-of-the-art methods in four
widely-used VFI benchmarks. Both code and pre-trained models will be released
soon.
- Abstract(参考訳): ビデオフレーム補間(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
最先端のアプローチは通常2段階のソリューションを採用する。
1)フローベースモーション推定による局所ワープ画素の生成
2) 歪んだピクセルをブレンドして深層神経合成ネットワークを通してフルフレームを形成する。
しかし、連続する2つのフレームからの反りが一貫性に欠けるため、新しいフレームの反りのある特徴は通常整列せず、特に大きく複雑な動きが発生すると、ゆがみやぼやけたフレームとなる。
本稿では,ビデオフレーム補間用トラジェクトリ対応トランスフォーマ(TTVFI)を提案する。
特に,不整合な動きをクエリトークンとして定式化し,元の2つの連続したフレームからキーと値への運動軌跡の関連領域を定式化する。
自己注意は軌道に沿った関連するトークンから学習され、エンドツーエンドのトレーニングを通じて原始的特徴を中間フレームにブレンドする。
実験結果から,本手法は4つのvfiベンチマークにおいて,最先端手法よりも優れていることがわかった。
コードと事前トレーニングされたモデルの両方が間もなくリリースされる。
関連論文リスト
- Framer: Interactive Frame Interpolation [73.06734414930227]
Framerのターゲットは、ユーザのクリエイティビティに応じて、2つのイメージ間のスムーズな遷移フレームを生成することだ。
提案手法は,選択したキーポイントの軌道を調整し,遷移過程のカスタマイズを支援する。
ここでは,キーポイントと軌道を自動的に推定するモジュールを導入する。
論文 参考訳(メタデータ) (2024-10-24T17:59:51Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - E-VFIA : Event-Based Video Frame Interpolation with Attention [8.93294761619288]
軽量カーネルベース手法として,注目度の高いイベントベースビデオフレーム(E-VFIA)を提案する。
E-VFIAは、イベント情報を変形可能な畳み込みによって標準的なビデオフレームと融合し、高品質な補間フレームを生成する。
提案手法は、時間分解能の高いイベントを表現し、イベントベース情報をよりよくエンコードするためにマルチヘッド自己保持機構を使用する。
論文 参考訳(メタデータ) (2022-09-19T21:40:32Z) - Video Frame Interpolation without Temporal Priors [91.04877640089053]
ビデオフレームは、既存の中間フレームをビデオシーケンスで合成することを目的としている。
フレーム/秒(FPS)やフレーム露光時間といったビデオの時間的先行は、異なるカメラセンサーによって異なる場合がある。
我々は、より良い合成結果を得るために、新しい光フロー改善戦略を考案する。
論文 参考訳(メタデータ) (2021-12-02T12:13:56Z) - Asymmetric Bilateral Motion Estimation for Video Frame Interpolation [50.44508853885882]
非対称な左右運動推定(ABME)に基づく新しいビデオフレームアルゴリズムを提案する。
我々は左右対称運動場を予測してアンカーフレームを補間する。
アンカーフレームから入力フレームへの非対称な左右運動場を推定する。
第三に、非対称場を用いて入力フレームを後方にワープし、中間フレームを再構築する。
論文 参考訳(メタデータ) (2021-08-15T21:11:35Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z) - Deep Sketch-guided Cartoon Video Inbetweening [24.00033622396297]
本研究では,ユーザスケッチに案内されたアニメーションの動きに追従しながら,2つの入力から色情報を取得することで,マンガ映像を生成するフレームワークを提案する。
フレームとスケッチの対応性を明示的に考慮することにより,他の画像合成法よりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2020-08-10T14:22:04Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。