論文の概要: Optimizing Video Prediction via Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2206.13454v1
- Date: Mon, 27 Jun 2022 17:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:50:16.926116
- Title: Optimizing Video Prediction via Video Frame Interpolation
- Title(参考訳): ビデオフレーム補間による映像予測の最適化
- Authors: Yue Wu and Qiang Wen and Qifeng Chen
- Abstract要約: 本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
- 参考スコア(独自算出の注目度): 53.16726447796844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video prediction is an extrapolation task that predicts future frames given
past frames, and video frame interpolation is an interpolation task that
estimates intermediate frames between two frames. We have witnessed the
tremendous advancement of video frame interpolation, but the general video
prediction in the wild is still an open question. Inspired by the
photo-realistic results of video frame interpolation, we present a new
optimization framework for video prediction via video frame interpolation, in
which we solve an extrapolation problem based on an interpolation model. Our
video prediction framework is based on optimization with a pretrained
differentiable video frame interpolation module without the need for a training
dataset, and thus there is no domain gap issue between training and test data.
Also, our approach does not need any additional information such as semantic or
instance maps, which makes our framework applicable to any video. Extensive
experiments on the Cityscapes, KITTI, DAVIS, Middlebury, and Vimeo90K datasets
show that our video prediction results are robust in general scenarios, and our
approach outperforms other video prediction methods that require a large amount
of training data or extra semantic information.
- Abstract(参考訳): ビデオ予測は、過去のフレームが与えた将来のフレームを予測する補間タスクであり、ビデオフレーム補間は、2つのフレーム間の中間フレームを推定する補間タスクである。
われわれは、ビデオフレーム補間が驚くほど進歩していることを見てきたが、野生での一般的なビデオ予測はまだ未解決の問題だ。
映像フレーム補間による写真リアルな結果に着想を得て,映像フレーム補間による映像予測のための新しい最適化フレームワークを提案し,補間モデルに基づく補間問題の解法を提案する。
我々のビデオ予測フレームワークは、トレーニングデータセットを必要とせず、事前訓練可能なビデオフレーム補間モジュールによる最適化に基づいているため、トレーニングデータとテストデータの間にはドメインギャップがない。
また,本手法ではセマンティックマップやインスタンスマップなどの追加情報を必要としないため,任意のビデオに適用できる。
cityscapes、kitti、davis、 middlebury、vimeo90kのデータセットに関する広範な実験では、一般的なシナリオではビデオ予測の結果が堅牢であり、大量のトレーニングデータや追加的な意味情報を必要とする他のビデオ予測手法よりも優れています。
関連論文リスト
- Frame-Voyager: Learning to Query Frames for Video Large Language Models [33.84793162102087]
ビデオ大言語モデル (Video-LLMs) はビデオ理解タスクにおいて顕著な進歩を遂げている。
フレームの一様サンプリングやテキストフレーム検索のような既存のフレーム選択アプローチでは、ビデオ内の情報密度の変動を考慮できない。
タスクの与えられたテキストクエリに基づいて,情報フレームの組み合わせを問合せする Frame-Voyager を提案する。
論文 参考訳(メタデータ) (2024-10-04T08:26:06Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - A unified model for continuous conditional video prediction [14.685237010856953]
条件付きビデオ予測タスクは通常、タスク関連モデルによって解決される。
ほぼ全ての条件付きビデオ予測モデルは、離散的な予測しか達成できない。
本稿では,これら2つの問題を同時に扱う統一モデルを提案する。
論文 参考訳(メタデータ) (2022-10-11T22:26:59Z) - VMFormer: End-to-End Video Matting with Transformer [48.97730965527976]
ビデオマッティングは、与えられた入力ビデオシーケンスから各フレームのアルファマットを予測することを目的としている。
ビデオマッチングの最近のソリューションは、ディープ畳み込みニューラルネットワーク(CNN)によって支配されている。
ビデオ・マッティングのためのトランスフォーマー・ベース・エンド・ツー・エンド方式であるVMFormerを提案する。
論文 参考訳(メタデータ) (2022-08-26T17:51:02Z) - Cross-Attention Transformer for Video Interpolation [3.5317804902980527]
TAIN (Transformers and Attention for video Interpolation) は、2つの連続した画像フレームが配置された中間フレームを補間することを目的としている。
最初に、予測フレームと類似した外観の入力画像特徴をグローバルに集約するために、CS(Cross-Similarity)と呼ばれる新しいビジュアルトランスフォーマーモジュールを提示する。
CS特徴の排他性を考慮し,一方のフレームから他方のフレーム上のCS特徴に焦点を合わせるためのイメージアテンション(IA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-08T21:38:54Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Understanding Road Layout from Videos as a Whole [82.30800791500869]
我々はこれをトップビューの道路属性予測問題として定式化し、その目的は各フレームの属性を正確かつ一貫して予測することである。
我々は、ビデオにおけるカメラモーションの活用と、長期ビデオ情報の導入という3つの新しい側面を生かした。
論文 参考訳(メタデータ) (2020-07-02T00:59:15Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z) - Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。
追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文 参考訳(メタデータ) (2020-04-02T02:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。