論文の概要: FlowLoss: Dynamic Flow-Conditioned Loss Strategy for Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.14535v1
- Date: Sun, 20 Apr 2025 08:22:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 23:58:05.049235
- Title: FlowLoss: Dynamic Flow-Conditioned Loss Strategy for Video Diffusion Models
- Title(参考訳): FlowLoss: ビデオ拡散モデルのための動的フローコンディション損失戦略
- Authors: Kuanting Wu, Kei Ota, Asako Kanezaki,
- Abstract要約: ビデオ拡散モデル(VDM)は高品質なビデオを生成することができるが、時間的に一貫した動きを生み出すのにしばしば苦労する。
本研究では,生成した映像から抽出した流れ場を直接比較するFlowLossを提案する。
本研究は,騒音条件付き生成モデルにモーションベース制御を組み込むための実用的な知見を提供する。
- 参考スコア(独自算出の注目度): 9.469635938429647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Diffusion Models (VDMs) can generate high-quality videos, but often struggle with producing temporally coherent motion. Optical flow supervision is a promising approach to address this, with prior works commonly employing warping-based strategies that avoid explicit flow matching. In this work, we explore an alternative formulation, FlowLoss, which directly compares flow fields extracted from generated and ground-truth videos. To account for the unreliability of flow estimation under high-noise conditions in diffusion, we propose a noise-aware weighting scheme that modulates the flow loss across denoising steps. Experiments on robotic video datasets suggest that FlowLoss improves motion stability and accelerates convergence in early training stages. Our findings offer practical insights for incorporating motion-based supervision into noise-conditioned generative models.
- Abstract(参考訳): ビデオ拡散モデル(VDM)は高品質なビデオを生成することができるが、時間的に一貫した動きを生み出すのにしばしば苦労する。
光フロー監視はこの問題に対処するための有望なアプローチであり、事前の作業では、明示的なフローマッチングを避けるためのワーピングベースの戦略が一般的である。
そこで本研究では,生成したビデオと地平線から抽出した流れ場を直接比較する,新たな定式化であるFlowLossについて検討する。
拡散中の高雑音条件下での流量推定の不確実性を考慮し, 騒音を考慮した重み付け方式を提案する。
ロボットビデオデータセットの実験では、FlowLossは運動の安定性を改善し、初期のトレーニング段階で収束を促進することが示唆されている。
本研究は,騒音条件付き生成モデルにモーションベース制御を組み込むための実用的な知見を提供する。
関連論文リスト
- MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space [40.60429652169086]
テキスト条件付きストリーミングモーション生成では、可変長の歴史的動きと入ってくるテキストに基づいて、次のステップの人間のポーズを予測する必要がある。
既存の方法は、例えば拡散モデルが予め定義された動き長によって制約されるような、ストリーミングモーション生成を達成するのに苦労している。
本研究では,連続因果遅延空間を確率論的自己回帰モデルに組み込む新しいフレームワークであるMotionStreamerを提案する。
論文 参考訳(メタデータ) (2025-03-19T17:32:24Z) - FlowDPS: Flow-Driven Posterior Sampling for Inverse Problems [51.99765487172328]
逆問題解決のための後部サンプリングは,フローを用いて効果的に行うことができる。
Flow-Driven Posterior Smpling (FlowDPS) は最先端の代替手段よりも優れています。
論文 参考訳(メタデータ) (2025-03-11T07:56:14Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Motion-Aware Generative Frame Interpolation [23.380470636851022]
フローベースのフレーム法は、推定中間フローを通しての運動安定性を保証するが、複雑な動き領域で深刻なアーティファクトを導入することが多い。
大規模な事前学習ビデオ生成モデルによって強化された最近の生成的アプローチは、複雑なシーンの処理において有望であることを示している。
本研究では、中間フロー誘導と生成能力を相乗化して忠実度を高める動き認識生成フレーム(MoG)を提案する。
論文 参考訳(メタデータ) (2025-01-07T11:03:43Z) - Video Motion Transfer with Diffusion Transformers [82.4796313201512]
本稿では,参照ビデオの動作を新たに合成したものに転送する方法であるDiTFlowを提案する。
まず、トレーニング済みのDiTを用いて参照ビデオを処理し、クロスフレームアテンションマップを分析し、パッチワイズ動作信号を抽出する。
我々は、位置埋め込みを変換し、ゼロショットモーション転送能力を向上する戦略を適用した。
論文 参考訳(メタデータ) (2024-12-10T18:59:58Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - Removing Structured Noise with Diffusion Models [13.50969999636388]
拡散モデルによる後方サンプリングの強力なパラダイムは、リッチで構造化されたノイズモデルを含むように拡張可能であることを示す。
構成雑音による様々な逆問題に対して高い性能向上を示し、競争的ベースラインよりも優れた性能を示す。
これにより、非ガウス測度モデルの文脈における逆問題に対する拡散モデリングの新しい機会と関連する実践的応用が開かれる。
論文 参考訳(メタデータ) (2023-01-20T23:42:25Z) - Learning Task-Oriented Flows to Mutually Guide Feature Alignment in
Synthesized and Real Video Denoising [137.5080784570804]
Video Denoisingは、クリーンなノイズを回復するためにビデオからノイズを取り除くことを目的としている。
既存の研究によっては、近辺のフレームから追加の空間的時間的手がかりを利用することで、光学的流れがノイズ発生の助けとなることが示されている。
本稿では,様々なノイズレベルに対してより堅牢なマルチスケール光フロー誘導型ビデオデノイング法を提案する。
論文 参考訳(メタデータ) (2022-08-25T00:09:18Z) - Self-Supervised Learning of Non-Rigid Residual Flow and Ego-Motion [63.18340058854517]
動的3次元シーンに対する非剛性残留流とエゴ運動流の連成推定によるエンドツーエンドのシーンフロー学習法を提案する。
我々は、点クラウドシーケンスの時間的一貫性性に基づいて、自己監督的な信号で教師付きフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-09-22T11:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。