論文の概要: FILM: Frame Interpolation for Large Motion
- arxiv url: http://arxiv.org/abs/2202.04901v2
- Date: Sat, 12 Feb 2022 02:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 12:21:43.120517
- Title: FILM: Frame Interpolation for Large Motion
- Title(参考訳): FILM:大きな動きのためのフレーム補間
- Authors: Fitsum Reda, Janne Kontkanen, Eric Tabellion, Deqing Sun, Caroline
Pantofaru, Brian Curless
- Abstract要約: 本稿では,2つの入力画像から複数の中間フレームを合成するフレームアルゴリズムを提案する。
提案手法は,Xiph大運動ベンチマークの最先端手法より優れている。
- 参考スコア(独自算出の注目度): 20.04001872133824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a frame interpolation algorithm that synthesizes multiple
intermediate frames from two input images with large in-between motion. Recent
methods use multiple networks to estimate optical flow or depth and a separate
network dedicated to frame synthesis. This is often complex and requires scarce
optical flow or depth ground-truth. In this work, we present a single unified
network, distinguished by a multi-scale feature extractor that shares weights
at all scales, and is trainable from frames alone. To synthesize crisp and
pleasing frames, we propose to optimize our network with the Gram matrix loss
that measures the correlation difference between feature maps. Our approach
outperforms state-of-the-art methods on the Xiph large motion benchmark. We
also achieve higher scores on Vimeo-90K, Middlebury and UCF101, when comparing
to methods that use perceptual losses. We study the effect of weight sharing
and of training with datasets of increasing motion range. Finally, we
demonstrate our model's effectiveness in synthesizing high quality and
temporally coherent videos on a challenging near-duplicate photos dataset.
Codes and pre-trained models are available at
https://github.com/google-research/frame-interpolation.
- Abstract(参考訳): 本稿では,2つの入力画像から複数の中間フレームを合成するフレーム補間アルゴリズムを提案する。
最近の手法では、複数のネットワークを用いて光学的流れや深度を推定し、フレーム合成に特化したネットワークを分離している。
これはしばしば複雑で、光学的流れや深さの地中真実を欠く必要がある。
本稿では,すべてのスケールで重みを共有し,フレームのみから学習可能なマルチスケール特徴抽出器を用いて,単一の統一ネットワークを提案する。
明快なフレームを合成するために,特徴地図間の相関差を測定するグラム行列損失を用いたネットワークの最適化を提案する。
提案手法はXiph大運動ベンチマークの最先端手法より優れている。
また,知覚的損失を用いた手法と比較して,Vimeo-90K,Middlebury,UCF101のスコアも高い。
本研究では,重量共有と運動範囲増加データセットを用いたトレーニングの効果について検討した。
最後に,本モデルの有効性を実証し,高画質映像と時間的コヒーレント映像を,難解な近重複写真データセット上で合成する。
コードと事前学習されたモデルはhttps://github.com/google-research/frame-interpolationで入手できる。
関連論文リスト
- FusionFrames: Efficient Architectural Aspects for Text-to-Video
Generation Pipeline [4.295130967329365]
本稿では,テキスト・ツー・イメージ拡散モデルに基づく2段階の遅延拡散テキスト・ビデオ生成アーキテクチャを提案する。
本モデルの設計は,他のマスクフレーム手法と比較して計算コストを大幅に削減する。
我々は,MoVQに基づくビデオデコーディング方式の異なる構成を評価し,一貫性を改善し,PSNR,SSIM,MSE,LPIPSのスコアを向上させる。
論文 参考訳(メタデータ) (2023-11-22T00:26:15Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Progressive Motion Context Refine Network for Efficient Video Frame
Interpolation [10.369068266836154]
フローベースフレーム法は、まず、ターゲットフレームと入力フレームの間の光フローをモデル化し、次いで、ターゲットフレーム生成のための合成ネットワークを構築することで、大きな成功を収めた。
本稿では,動き場と画像コンテキストを協調的に予測し,高い効率性を実現するための新しいプログレッシブ・モーション・コンテキスト・リファイン・ネットワーク(PMCRNet)を提案する。
複数のベンチマーク実験により、提案手法は好意的かつ定量的な結果を得るだけでなく、モデルのサイズや実行時間を大幅に短縮することが示された。
論文 参考訳(メタデータ) (2022-11-11T06:29:03Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - ARVo: Learning All-Range Volumetric Correspondence for Video Deblurring [92.40655035360729]
ビデオデブラリングモデルは連続フレームを利用して、カメラの揺動や物体の動きからぼやけを取り除く。
特徴空間におけるボケフレーム間の空間的対応を学習する新しい暗黙的手法を提案する。
提案手法は,新たに収集したビデオデブレーション用ハイフレームレート(1000fps)データセットとともに,広く採用されているDVDデータセット上で評価される。
論文 参考訳(メタデータ) (2021-03-07T04:33:13Z) - ALANET: Adaptive Latent Attention Network forJoint Video Deblurring and
Interpolation [38.52446103418748]
シャープな高フレームレート映像を合成する新しいアーキテクチャであるAdaptive Latent Attention Network (ALANET)を導入する。
我々は,各フレームに最適化された表現を生成するために,潜在空間内の連続するフレーム間で自己アテンションと相互アテンションのモジュールを組み合わせる。
本手法は, より困難な問題に取り組みながら, 様々な最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2020-08-31T21:11:53Z) - All at Once: Temporally Adaptive Multi-Frame Interpolation with Advanced
Motion Modeling [52.425236515695914]
最先端の手法は、一度に1つのフレームを補間する反復解である。
この研究は、真のマルチフレーム補間子を導入している。
時間領域のピラミッドスタイルのネットワークを使用して、複数フレームのタスクをワンショットで完了する。
論文 参考訳(メタデータ) (2020-07-23T02:34:39Z) - W-Cell-Net: Multi-frame Interpolation of Cellular Microscopy Videos [1.7205106391379026]
蛍光顕微鏡タイムラプス映画の時間分解能を高めるため,近年のディープ・ビデオ・コンボリューションを応用した。
我々の知る限り、2つの連続した顕微鏡画像間のフレームを生成するために、CNN(Conal Neural Networks)を用いた以前の研究はない。
論文 参考訳(メタデータ) (2020-05-14T01:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。