Fugu-MT 論文翻訳(概要): FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation

論文の概要: FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation

arxiv url: http://arxiv.org/abs/2506.01144v2
Date: Wed, 04 Jun 2025 07:45:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 13:54:39.513871
Title: FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation
Title（参考訳）: FlowMo:ビデオ生成におけるコヒーレント動作のための可変型フローガイダンス
Authors: Ariel Shaulov, Itay Hazan, Lior Wolf, Hila Chefer,
Abstract要約: FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
参考スコア（独自算出の注目度）: 51.110607281391154
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-video diffusion models are notoriously limited in their ability to model temporal aspects such as motion, physics, and dynamic interactions. Existing approaches address this limitation by retraining the model or introducing external conditioning signals to enforce temporal consistency. In this work, we explore whether a meaningful temporal representation can be extracted directly from the predictions of a pre-trained model without any additional training or auxiliary inputs. We introduce FlowMo, a novel training-free guidance method that enhances motion coherence using only the model's own predictions in each diffusion step. FlowMo first derives an appearance-debiased temporal representation by measuring the distance between latents corresponding to consecutive frames. This highlights the implicit temporal structure predicted by the model. It then estimates motion coherence by measuring the patch-wise variance across the temporal dimension and guides the model to reduce this variance dynamically during sampling. Extensive experiments across multiple text-to-video models demonstrate that FlowMo significantly improves motion coherence without sacrificing visual quality or prompt alignment, offering an effective plug-and-play solution for enhancing the temporal fidelity of pre-trained video diffusion models.
Abstract（参考訳）: テキストからビデオへの拡散モデルは、運動、物理学、動的相互作用などの時間的側面をモデル化する能力に制限されていることで有名である。既存のアプローチでは、モデルを再トレーニングしたり、時間的一貫性を強制するために外部条件信号を導入することで、この制限に対処している。本研究では,事前学習したモデルの予測から,追加のトレーニングや補助的な入力なしに意味のある時間的表現を直接抽出できるかどうかを考察する。本研究では,各拡散ステップにおけるモデル自身の予測のみを用いて,動きコヒーレンスを向上させる新しいトレーニングフリーガイダンス手法であるFlowMoを紹介する。 FlowMoはまず、連続するフレームに対応する潜伏者間の距離を測定することによって、外見を逸脱した時間表現を導出する。これはモデルによって予測される暗黙の時間構造を強調する。次に、時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。複数のテキスト・ビデオモデルにわたる大規模な実験により、FlowMoは視覚的品質を犠牲にすることなく動きのコヒーレンスを著しく改善し、事前訓練されたビデオ拡散モデルの時間的忠実度を高める効果的なプラグ・アンド・プレイソリューションを提供することが示された。

関連論文リスト

REWIND: Real-Time Egocentric Whole-Body Motion Diffusion with Exemplar-Based Identity Conditioning [95.07708090428814]
本稿では,一段階拡散モデルREWINDを提案する。身体中心運動と手の動きの相関を効果的にモデル化する。また、ターゲットアイデンティティの小さなポーズ例に基づく新しいアイデンティティ条件付け手法を提案し、動き推定品質をさらに向上させる。
論文参考訳（メタデータ） (2025-04-07T11:44:11Z)
Dynamical Diffusion: Learning Temporal Dynamics with Diffusion Models [71.63194926457119]
動的拡散(DyDiff, Dynamical Diffusion)は, 時間的に意識された前と逆のプロセスを含む理論的に健全なフレームワークである。科学的時間的予測、ビデオ予測、時系列予測に関する実験は、動的拡散が時間的予測タスクのパフォーマンスを一貫して改善することを示した。
論文参考訳（メタデータ） (2025-03-02T16:10:32Z)
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文参考訳（メタデータ） (2024-12-10T18:13:20Z)
Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文参考訳（メタデータ） (2024-07-11T17:13:15Z)
Disentangled Motion Modeling for Video Frame Interpolation [40.83962594702387]
ビデオフレーム補間(VFI)は、既存のフレーム間の中間フレームを合成し、視覚的滑らかさと品質を高めることを目的としている。中間動作モデリングに着目して視覚的品質を高めるVFIの拡散に基づく手法であるDistangled Motion Modeling (MoMo)を導入する。
論文参考訳（メタデータ） (2024-06-25T03:50:20Z)
Unfolding Time: Generative Modeling for Turbulent Flows in 4D [49.843505326598596]
本研究では,4次元生成拡散モデルと物理インフォームドガイダンスを導入し,現実的な流れ状態列の生成を可能にする。提案手法は, 乱流多様体からのサブシーケンス全体のサンプリングに有効であることが示唆された。この進展は、乱流の時間的進化を分析するために生成モデリングを適用するための扉を開く。
論文参考訳（メタデータ） (2024-06-17T10:21:01Z)
RecMoDiffuse: Recurrent Flow Diffusion for Human Motion Generation [5.535590461577558]
RecMoDiffuseは時間モデリングのための新しい再帰拡散定式化である。人間の動作の時間的モデリングにおけるRecMoDiffuseの有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T11:25:37Z)
Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文参考訳（メタデータ） (2023-11-22T15:07:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。