論文の概要: Boost Video Frame Interpolation via Motion Adaptation
- arxiv url: http://arxiv.org/abs/2306.13933v3
- Date: Thu, 5 Oct 2023 16:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 22:02:02.278962
- Title: Boost Video Frame Interpolation via Motion Adaptation
- Title(参考訳): モーション適応によるビデオフレーム補間
- Authors: Haoning Wu, Xiaoyun Zhang, Weidi Xie, Ya Zhang, Yanfeng Wang
- Abstract要約: ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
- 参考スコア(独自算出の注目度): 73.42573856943923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video frame interpolation (VFI) is a challenging task that aims to generate
intermediate frames between two consecutive frames in a video. Existing
learning-based VFI methods have achieved great success, but they still suffer
from limited generalization ability due to the limited motion distribution of
training datasets. In this paper, we propose a novel optimization-based VFI
method that can adapt to unseen motions at test time. Our method is based on a
cycle-consistency adaptation strategy that leverages the motion characteristics
among video frames. We also introduce a lightweight adapter that can be
inserted into the motion estimation module of existing pre-trained VFI models
to improve the efficiency of adaptation. Extensive experiments on various
benchmarks demonstrate that our method can boost the performance of two-frame
VFI models, outperforming the existing state-of-the-art methods, even those
that use extra input.
- Abstract(参考訳): ビデオフレーム補間(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのvfi手法は大きな成功を収めているが、トレーニングデータセットの動作分布が限られているため、まだ一般化能力が限られている。
本稿では,テスト時に見えない動作に適応できる新しい最適化ベースのVFI手法を提案する。
本手法は,映像フレーム間の動き特性を活用するサイクル一貫性適応戦略に基づく。
また、既存のトレーニング済みVFIモデルの動作推定モジュールに挿入可能な軽量アダプタを導入し、適応効率を向上させる。
各種ベンチマーク実験により,提案手法は2フレームVFIモデルの性能を向上し,既存手法よりも優れた性能を発揮することが示された。
関連論文リスト
- Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - AnimateLCM: Accelerating the Animation of Personalized Diffusion Models
and Adapters with Decoupled Consistency Learning [47.681633892135125]
最小ステップで高忠実度映像を生成できるAnimateLCMを提案する。
生のビデオデータセット上で一貫性学習を直接実行する代わりに、分離された一貫性学習戦略を提案する。
画像条件付き映像生成とレイアウト条件付き映像生成における提案手法の有効性を検証し,性能評価の結果を得た。
論文 参考訳(メタデータ) (2024-02-01T16:58:11Z) - VeCAF: VLM-empowered Collaborative Active Finetuning with Training
Objective Awareness [58.40419742596087]
PVM(Pretrained Vision Model)は、下流の視覚タスクを学習するための一般的なテクニックである。
VLMを用いた協調型アクティブファインタニング(VeCAF)を提案する。
VeCAFは、調整中のモデルのトレーニング目標を組み込むことで、パラメトリックデータ選択モデルを最適化する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - A Multi-In-Single-Out Network for Video Frame Interpolation without
Optical Flow [14.877766449009119]
深層学習に基づくビデオフレーム (VFI) 法は、2つの入力フレーム間の動きを推定することに集中している。
動作ベクトル推定に依存しないマルチインシングルアウト(MISO)に基づくVFI法を提案する。
我々はMISO-VFIがビデオフレーム内のベクトル時間をよりよくキャプチャできる新しい動き知覚損失を導入した。
論文 参考訳(メタデータ) (2023-11-20T08:29:55Z) - IDO-VFI: Identifying Dynamics via Optical Flow Guidance for Video Frame
Interpolation with Events [14.098949778274733]
イベントカメラは、フレーム間のダイナミクスを極めて高い時間分解能で捉えるのに最適である。
IDO-VFIというイベント・アンド・フレームベースのビデオフレーム方式を提案する。
提案手法は,Vimeo90Kデータセット上での計算時間と計算労力をそれぞれ10%と17%削減しつつ,高品質な性能を維持する。
論文 参考訳(メタデータ) (2023-05-17T13:22:21Z) - Motion Style Transfer: Modular Low-Rank Adaptation for Deep Motion
Forecasting [79.56014465244644]
本稿では,新しい領域への深部動き予測モデルを効率的に適用するための伝達学習手法を提案する。
エンコーダ全体を更新する従来の微調整アプローチとは異なり、主な考え方は調整可能なパラメータの量を減らすことである。
提案するアダプタ設計であるMoSAは,いくつかの予測ベンチマークにおいて,先行手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-06T16:14:17Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。