論文の概要: Scene-Adaptive Video Frame Interpolation via Meta-Learning
- arxiv url: http://arxiv.org/abs/2004.00779v1
- Date: Thu, 2 Apr 2020 02:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 12:48:35.005793
- Title: Scene-Adaptive Video Frame Interpolation via Meta-Learning
- Title(参考訳): メタラーニングによるシーン適応型ビデオフレーム補間
- Authors: Myungsub Choi, Janghoon Choi, Sungyong Baik, Tae Hyun Kim, Kyoung Mu
Lee
- Abstract要約: テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。
追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
- 参考スコア(独自算出の注目度): 54.87696619177496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video frame interpolation is a challenging problem because there are
different scenarios for each video depending on the variety of foreground and
background motion, frame rate, and occlusion. It is therefore difficult for a
single network with fixed parameters to generalize across different videos.
Ideally, one could have a different network for each scenario, but this is
computationally infeasible for practical applications. In this work, we propose
to adapt the model to each video by making use of additional information that
is readily available at test time and yet has not been exploited in previous
works. We first show the benefits of `test-time adaptation' through simple
fine-tuning of a network, then we greatly improve its efficiency by
incorporating meta-learning. We obtain significant performance gains with only
a single gradient update without any additional parameters. Finally, we show
that our meta-learning framework can be easily employed to any video frame
interpolation network and can consistently improve its performance on multiple
benchmark datasets.
- Abstract(参考訳): ビデオフレームの補間は、前景や背景の動き、フレームレート、オクルージョンなどによって、各ビデオのシナリオが異なるため、難しい問題である。
したがって、固定パラメータを持つ単一のネットワークでは、異なるビデオ間で一般化することは困難である。
理想的には、シナリオごとに異なるネットワークを持つことができるが、これは実用的なアプリケーションでは計算不可能である。
本研究では,テスト時に手軽に利用できるが,以前の研究では利用されていない追加情報を利用することで,各ビデオにモデルを適用することを提案する。
まず,ネットワークの微調整による‘テスト時間適応’の利点を示し,メタラーニングを取り入れることでその効率を大幅に向上させる。
追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られる。
最後に、我々のメタラーニングフレームワークは、任意のビデオフレーム補間ネットワークに容易に適用でき、複数のベンチマークデータセットの性能を一貫して改善できることを示す。
関連論文リスト
- Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Multi-Modal Video Topic Segmentation with Dual-Contrastive Domain
Adaptation [74.51546366251753]
ビデオトピックセグメンテーションは、ビデオの基礎となる粗い粒度のセマンティック構造を明らかにする。
ビデオの書き起こしとフレームの両方を利用するマルチモーダルなビデオトピックセグメンタを提案する。
提案手法は, 精度と転送性の両方の観点から, ベースライン法をはるかに上回っている。
論文 参考訳(メタデータ) (2023-11-30T21:59:05Z) - Optimizing Video Prediction via Video Frame Interpolation [53.16726447796844]
本稿では,映像フレームスケープのフォトリアリスティックな結果にインスパイアされた,映像フレームによる映像予測のための新しい最適化フレームワークを提案する。
我々のフレームワークは、トレーニングデータセットを必要とせずに、事前訓練された差別化可能なビデオフレームモジュールによる最適化に基づいている。
我々の手法は、大量のトレーニングデータや余分な意味情報を必要とする他のビデオ予測手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-27T17:03:46Z) - Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。
この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。
本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文 参考訳(メタデータ) (2022-06-07T16:28:30Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Learning Video Instance Segmentation with Recurrent Graph Neural
Networks [39.06202374530647]
本稿では,ビデオインスタンスのセグメンテーション問題全体を共同でモデル化する,新しい学習形式を提案する。
私たちは、グラフニューラルネットワークの助けを借りて、利用可能なすべての新しい情報を各フレームで処理する、フレキシブルなモデルに適合します。
われわれのアプローチは25FPS以上で、従来のビデオリアルタイム手法よりも優れている。
論文 参考訳(メタデータ) (2020-12-07T18:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。