論文の概要: Disentangled Motion Modeling for Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2406.17256v2
- Date: Thu, 19 Dec 2024 02:05:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:27:31.858710
- Title: Disentangled Motion Modeling for Video Frame Interpolation
- Title(参考訳): ビデオフレーム補間のための遠方運動モデリング
- Authors: Jaihyun Lew, Jooyoung Choi, Chaehun Shin, Dahuin Jung, Sungroh Yoon,
- Abstract要約: ビデオフレーム補間(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。
中間動作モデリングに着目して視覚的品質を高めるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を導入する。
- 参考スコア(独自算出の注目度): 40.83962594702387
- License:
- Abstract: Video Frame Interpolation (VFI) aims to synthesize intermediate frames between existing frames to enhance visual smoothness and quality. Beyond the conventional methods based on the reconstruction loss, recent works have employed generative models for improved perceptual quality. However, they require complex training and large computational costs for pixel space modeling. In this paper, we introduce disentangled Motion Modeling (MoMo), a diffusion-based approach for VFI that enhances visual quality by focusing on intermediate motion modeling. We propose a disentangled two-stage training process. In the initial stage, frame synthesis and flow models are trained to generate accurate frames and flows optimal for synthesis. In the subsequent stage, we introduce a motion diffusion model, which incorporates our novel U-Net architecture specifically designed for optical flow, to generate bi-directional flows between frames. By learning the simpler low-frequency representation of motions, MoMo achieves superior perceptual quality with reduced computational demands compared to the generative modeling methods on the pixel space. MoMo surpasses state-of-the-art methods in perceptual metrics across various benchmarks, demonstrating its efficacy and efficiency in VFI.
- Abstract(参考訳): ビデオフレーム補間(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。
再建損失に基づく従来の手法以外にも、近年の研究では知覚品質向上のための生成モデルが採用されている。
しかし、それらは複雑な訓練と、ピクセル空間モデリングのための大きな計算コストを必要とする。
本稿では,中間動作モデルに着目し,視覚的品質を向上させるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を紹介する。
本稿では,2段階のアンタングルトレーニングプロセスを提案する。
初期段階では、フレーム合成とフローモデルを訓練し、正確なフレームを生成し、合成に最適なフローを生成する。
その後の段階では、フレーム間の双方向フローを生成するために、光フローに特化して設計された新しいU-Netアーキテクチャを組み込んだ動き拡散モデルを導入する。
動きのより単純な低周波表現を学習することにより、MoMoは画素空間上の生成的モデリング手法と比較して計算要求を小さくして知覚品質を向上する。
MoMoは様々なベンチマークにおける知覚メトリクスの最先端の手法を超越し、VFIの有効性と効率を実証している。
関連論文リスト
- VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - Motion-Aware Generative Frame Interpolation [23.380470636851022]
そこで我々は,明示的な動作誘導を統合することで,モデルの動き認識を高めるために,MoG(Motion-Aware Generative frame)を提案する。
提案手法の汎用性を示すため,実世界とアニメーションの両方のデータセット上でMoGをトレーニングする。
論文 参考訳(メタデータ) (2025-01-07T11:03:43Z) - Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。
受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文 参考訳(メタデータ) (2024-02-05T11:00:14Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - IDO-VFI: Identifying Dynamics via Optical Flow Guidance for Video Frame
Interpolation with Events [14.098949778274733]
イベントカメラは、フレーム間のダイナミクスを極めて高い時間分解能で捉えるのに最適である。
IDO-VFIというイベント・アンド・フレームベースのビデオフレーム方式を提案する。
提案手法は,Vimeo90Kデータセット上での計算時間と計算労力をそれぞれ10%と17%削減しつつ,高品質な性能を維持する。
論文 参考訳(メタデータ) (2023-05-17T13:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。