論文の概要: Motion-Aware Generative Frame Interpolation
- arxiv url: http://arxiv.org/abs/2501.03699v1
- Date: Tue, 07 Jan 2025 11:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:49:28.050049
- Title: Motion-Aware Generative Frame Interpolation
- Title(参考訳): 動き認識型生成フレーム補間
- Authors: Guozhen Zhang, Yuhan Zhu, Yutao Cui, Xiaotong Zhao, Kai Ma, Limin Wang,
- Abstract要約: そこで我々は,明示的な動作誘導を統合することで,モデルの動き認識を高めるために,MoG(Motion-Aware Generative frame)を提案する。
提案手法の汎用性を示すため,実世界とアニメーションの両方のデータセット上でMoGをトレーニングする。
- 参考スコア(独自算出の注目度): 23.380470636851022
- License:
- Abstract: Generative frame interpolation, empowered by large-scale pre-trained video generation models, has demonstrated remarkable advantages in complex scenes. However, existing methods heavily rely on the generative model to independently infer the correspondences between input frames, an ability that is inadequately developed during pre-training. In this work, we propose a novel framework, termed Motion-aware Generative frame interpolation (MoG), to significantly enhance the model's motion awareness by integrating explicit motion guidance. Specifically we investigate two key questions: what can serve as an effective motion guidance, and how we can seamlessly embed this guidance into the generative model. For the first question, we reveal that the intermediate flow from flow-based interpolation models could efficiently provide task-oriented motion guidance. Regarding the second, we first obtain guidance-based representations of intermediate frames by warping input frames' representations using guidance, and then integrate them into the model at both latent and feature levels. To demonstrate the versatility of our method, we train MoG on both real-world and animation datasets. Comprehensive evaluations show that our MoG significantly outperforms the existing methods in both domains, achieving superior video quality and improved fidelity.
- Abstract(参考訳): 大規模な事前学習ビデオ生成モデルによって強化された生成フレーム補間は、複雑なシーンにおいて顕著なアドバンテージを示す。
しかし、既存の手法は入力フレーム間の対応を独立に推測する生成モデルに大きく依存している。
本研究では,運動認識フレーム補間(MoG)と呼ばれる新しいフレームワークを提案する。
具体的には、効果的な動作誘導として機能するものと、この誘導を生成モデルにシームレスに組み込む方法の2つについて検討する。
まず,フローベース補間モデルからの中間フローが,タスク指向の動作ガイダンスを効率的に提供できることを明らかにする。
第2に、まず、入力フレームの表現を誘導を用いてワープすることで、中間フレームのガイダンスベース表現を取得し、潜在レベルと特徴レベルの両方でモデルに統合する。
提案手法の汎用性を示すため,実世界とアニメーションの両方のデータセット上でMoGをトレーニングする。
総合評価の結果,MoGは両領域の既存手法よりも優れ,画質が向上し,忠実度も向上した。
関連論文リスト
- VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z) - Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation [0.0]
本研究では,大動フレームに対して映像間モデルを適用するために設計された条件付きエンコーダを提案する。
性能向上のために,デュアルブランチ特徴抽出器を統合し,クロスフレームアテンション機構を提案する。
提案手法は,他の最先端手法と比較して,Fr'teche Video Distance測定において優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-22T14:49:55Z) - Framer: Interactive Frame Interpolation [73.06734414930227]
Framerのターゲットは、ユーザのクリエイティビティに応じて、2つのイメージ間のスムーズな遷移フレームを生成することだ。
提案手法は,選択したキーポイントの軌道を調整し,遷移過程のカスタマイズを支援する。
ここでは,キーポイントと軌道を自動的に推定するモジュールを導入する。
論文 参考訳(メタデータ) (2024-10-24T17:59:51Z) - Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - Disentangled Motion Modeling for Video Frame Interpolation [40.83962594702387]
ビデオフレーム補間(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。
中間動作モデリングに着目して視覚的品質を高めるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を導入する。
論文 参考訳(メタデータ) (2024-06-25T03:50:20Z) - Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Enhanced Bi-directional Motion Estimation for Video Frame Interpolation [0.05541644538483946]
本稿では,動画フレーム推定のための新しいアルゴリズムを提案する。
提案手法は,広い範囲の動画フレームベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-17T06:08:43Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。