Fugu-MT 論文翻訳(概要): Motion-Aware Generative Frame Interpolation

論文の概要: Motion-Aware Generative Frame Interpolation

arxiv url: http://arxiv.org/abs/2501.03699v2
Date: Sat, 08 Mar 2025 08:22:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 15:50:05.880768
Title: Motion-Aware Generative Frame Interpolation
Title（参考訳）: 動き認識型生成フレーム補間
Authors: Guozhen Zhang, Yuhan Zhu, Yutao Cui, Xiaotong Zhao, Kai Ma, Limin Wang,
Abstract要約: フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
参考スコア（独自算出の注目度）: 23.380470636851022
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Flow-based frame interpolation methods ensure motion stability through estimated intermediate flow but often introduce severe artifacts in complex motion regions. Recent generative approaches, boosted by large-scale pre-trained video generation models, show promise in handling intricate scenes. However, they frequently produce unstable motion and content inconsistencies due to the absence of explicit motion trajectory constraints. To address these challenges, we propose Motion-aware Generative frame interpolation (MoG) that synergizes intermediate flow guidance with generative capacities to enhance interpolation fidelity. Our key insight is to simultaneously enforce motion smoothness through flow constraints while adaptively correcting flow estimation errors through generative refinement. Specifically, we first introduce a dual guidance injection that propagates condition information using intermediate flow at both latent and feature levels, aligning the generated motion with flow-derived motion trajectories. Meanwhile, we implemented two critical designs, encoder-only guidance injection and selective parameter fine-tuning, which enable dynamic artifact correction in the complex motion regions. Extensive experiments on both real-world and animation benchmarks demonstrate that MoG outperforms state-of-the-art methods in terms of video quality and visual fidelity. Our work bridges the gap between flow-based stability and generative flexibility, offering a versatile solution for frame interpolation across diverse scenarios.
Abstract（参考訳）: フローベースのフレーム補間法は、推定中間流による動きの安定性を保証するが、複雑な動き領域に深刻なアーティファクトを導入することが多い。大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。しかし、明示的な運動軌跡の制約がないため、不安定な動きや内容の不整合が頻繁に発生する。これらの課題に対処するために、中間フロー誘導と生成能力を相乗化して補間精度を高めるMoG(Motion-Aware Generative frame Interpolation)を提案する。我々の重要な洞察は、フロー制約による動きの滑らかさを同時に実施し、生成的洗練によるフロー推定誤差を適応的に補正することである。具体的には,2重誘導インジェクションを導入し,中間フローと特徴レベルの両方で条件情報を伝達し,生成した動きをフロー由来の運動軌跡と整合させる。一方,複雑な動作領域における動的アーティファクト補正を実現するために,エンコーダのみの誘導インジェクションと選択パラメータの微調整という2つの重要な設計を実装した。実世界のベンチマークとアニメーションのベンチマークによる大規模な実験により、MoGは映像の品質と視覚的忠実度において最先端の手法より優れていることが示された。私たちの作業はフローベースの安定性と生成柔軟性のギャップを埋め、さまざまなシナリオにまたがるフレーム補間のための汎用的なソリューションを提供します。

関連論文リスト

MotionVerse: A Unified Multimodal Framework for Motion Comprehension, Generation and Editing [53.98607267063729]
MotionVerseは、シングルパーソンとマルチパーソンの両方のシナリオで人間の動作を理解し、生成し、編集するフレームワークである。我々は、連続的な動き列をマルチストリーム離散トークンに変換する残差量子化を伴う動きトークン化器を用いる。また、残留トークンストリームの符号化を時間的に停滞させる textitDelay Parallel Modeling 戦略も導入する。
論文参考訳（メタデータ） (2025-09-28T04:20:56Z)
MIORe & VAR-MIORe: Benchmarks to Push the Boundaries of Restoration [53.180212987726556]
動作回復ベンチマークの限界に対処する2つの新しいマルチタスクデータセットであるMIOReとVAR-MIOReを紹介する。私たちのデータセットは、複雑なエゴカメラの動き、動的マルチオブジェクト相互作用、深さ依存のぼかし効果など、幅広い動きシナリオを捉えています。
論文参考訳（メタデータ） (2025-09-08T15:34:31Z)
MotionGPT3: Human Motion as a Second Modality [28.616340011811843]
MotionGPT3は、理解と生成の両方のためのバイモーダルモーション言語モデルである。共通注意を持つデュアルストリームトランスは、制御された双方向情報フローを実現しつつ、モダリティ固有の経路を保存する。実験により、MotionGPT3はトレーニング損失の2倍高速収束、検証の最大4倍高速収束を実現している。
論文参考訳（メタデータ） (2025-06-30T17:42:22Z)
FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文参考訳（メタデータ） (2025-06-01T19:55:33Z)
ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。 Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文参考訳（メタデータ） (2025-03-27T16:39:40Z)
MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion [20.142107033583027]
MotionDiffは、複雑な多視点モーション編集に光フローを利用する、トレーニング不要なゼロショット拡散法である。これは、高品質な多視点一貫した運動結果を達成するために、他の物理学ベースの生成運動編集法よりも優れている。 MotionDiffは再トレーニングを必要としないので、ユーザは様々なダウンストリームタスクに便利に適応できる。
論文参考訳（メタデータ） (2025-03-22T08:32:56Z)
Leader and Follower: Interactive Motion Generation under Trajectory Constraints [42.90788442575116]
本稿では,対話型モーションジェネレーションにおける動作範囲改善過程について検討する。 Pace ControllerとKinematic Synchronization Adapterを統合した、トレーニング不要のアプローチを提案する。実験結果から,提案手法は軌道情報をよりよく活用することにより,既存の手法よりも現実性と精度が優れていることがわかった。
論文参考訳（メタデータ） (2025-02-17T08:52:45Z)
Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文参考訳（メタデータ） (2024-07-11T17:13:15Z)
Disentangled Motion Modeling for Video Frame Interpolation [40.83962594702387]
ビデオフレーム補間(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。中間動作モデリングに着目して視覚的品質を高めるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を導入する。
論文参考訳（メタデータ） (2024-06-25T03:50:20Z)
Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文参考訳（メタデータ） (2024-04-21T05:09:56Z)
Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。 SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文参考訳（メタデータ） (2024-03-22T14:47:18Z)
Motion-Aware Video Frame Interpolation [49.49668436390514]
我々は、連続するフレームから中間光の流れを直接推定する動き対応ビデオフレーム補間(MA-VFI)ネットワークを導入する。受容場が異なる入力フレームからグローバルな意味関係と空間的詳細を抽出するだけでなく、必要な計算コストと複雑さを効果的に削減する。
論文参考訳（メタデータ） (2024-02-05T11:00:14Z)
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文参考訳（メタデータ） (2023-12-01T15:24:38Z)
Enhanced Bi-directional Motion Estimation for Video Frame Interpolation [0.05541644538483946]
本稿では,動画フレーム推定のための新しいアルゴリズムを提案する。提案手法は,広い範囲の動画フレームベンチマークにおいて優れた性能を示す。
論文参考訳（メタデータ） (2022-06-17T06:08:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。