論文の概要: FloodDiffusion: Tailored Diffusion Forcing for Streaming Motion Generation
- arxiv url: http://arxiv.org/abs/2512.03520v1
- Date: Wed, 03 Dec 2025 07:23:47 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:01:15.567299
- Title: FloodDiffusion: Tailored Diffusion Forcing for Streaming Motion Generation
- Title(参考訳): 洪水拡散:ストリーミング動作生成のためのテーラー拡散強制
- Authors: Yiyi Cai, Yuhan Wu, Kunhang Li, You Zhou, Bo Zheng, Haiyang Liu,
- Abstract要約: FloodDiffusionは、テキスト駆動のストリーミングヒューマンモーション生成のための新しいフレームワークである。
FloodDiffusionは、リアルタイムレイテンシでテキスト整列でシームレスなモーションシーケンスを生成する。
- 参考スコア(独自算出の注目度): 14.404625837958454
- License:
- Abstract: We present FloodDiffusion, a new framework for text-driven, streaming human motion generation. Given time-varying text prompts, FloodDiffusion generates text-aligned, seamless motion sequences with real-time latency. Unlike existing methods that rely on chunk-by-chunk or auto-regressive model with diffusion head, we adopt a diffusion forcing framework to model this time-series generation task under time-varying control events. We find that a straightforward implementation of vanilla diffusion forcing (as proposed for video models) fails to model real motion distributions. We demonstrate that to guarantee modeling the output distribution, the vanilla diffusion forcing must be tailored to: (i) train with a bi-directional attention instead of casual attention; (ii) implement a lower triangular time scheduler instead of a random one; (iii) utilize a continues time-varying way to introduce text conditioning. With these improvements, we demonstrate in the first time that the diffusion forcing-based framework achieves state-of-the-art performance on the streaming motion generation task, reaching an FID of 0.057 on the HumanML3D benchmark. Models, code, and weights are available. https://shandaai.github.io/FloodDiffusion/
- Abstract(参考訳): FloodDiffusionは、テキスト駆動のストリーミングヒューマンモーション生成のための新しいフレームワークである。
FloodDiffusionは、時間変化のあるテキストプロンプトを前提として、リアルタイムのレイテンシでテキスト整列でシームレスなモーションシーケンスを生成する。
拡散ヘッドを持つチャンク・バイ・チャンクや自己回帰モデルに依存する既存の手法とは異なり、時間変化制御イベントの下でこの時系列生成タスクをモデル化するために拡散強制フレームワークを採用する。
ビデオモデルで提案したような)バニラ拡散強制の簡単な実装では、実際の動き分布をモデル化できないことがわかった。
出力分布のモデル化を保証するためには,バニラ拡散強制を次のように調整する必要があることを実証する。
一 気まぐれな注意の代わりに二方向の注意を向けた列車
(ii) ランダムな時間ではなく、より低い三角形の時間スケジューラを実装する。
(iii) テキストコンディショニングを導入するために、継続する時間変化の方法を利用する。
これらの改善により、拡散強制型フレームワークがストリーミングモーション生成タスクで最先端のパフォーマンスを実現し、HumanML3Dベンチマークで0.057のFIDに達したことを初めて示す。
モデル、コード、ウェイトが利用可能だ。
https://shandaai.github.io/FloodDiffusion/
関連論文リスト
- Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [67.94300151774085]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。
露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文 参考訳(メタデータ) (2025-06-09T17:59:55Z) - Diffusion Buffer: Online Diffusion-based Speech Enhancement with Sub-Second Latency [29.58683554898725]
我々は音声強調作業にスライディングウィンドウ拡散フレームワークを適用した。
提案手法は,バッファ内の現在に近いフレームにより多くのノイズを割り当てることで,音声信号を経時的に劣化させる。
これは、オンライン音声強調のための最初の実践的拡散ベースのソリューションである。
論文 参考訳(メタデータ) (2025-06-03T14:14:28Z) - FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。
時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T19:55:33Z) - Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow [65.51671121528858]
拡散モデルは、視覚生成を大幅に改善したが、生成ODEを解くという計算集約的な性質のため、生成速度の遅さによって妨げられている。
広く認識されている解である整流流は、ODEパスを直線化することで生成速度を向上させる。
本稿では,より広範な拡散モデルのカテゴリをカバーするために,設計空間と修正の応用範囲を一般化するRectified Diffusionを提案する。
論文 参考訳(メタデータ) (2024-10-09T17:43:38Z) - Diffusion-TS: Interpretable Diffusion for General Time Series Generation [6.639630994040322]
Diffusion-TSは、高品質な時系列サンプルを生成する新しい拡散ベースのフレームワークである。
各拡散ステップのノイズの代わりにサンプルを直接再構成するようにモデルを訓練し、フーリエに基づく損失項を組み合わせた。
その結果,Diffusion-TSは時系列の様々な現実的解析において最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:39:23Z) - TESS: Text-to-Text Self-Conditioned Simplex Diffusion [56.881170312435444]
テキストからテキストへの自己条件付きSimplex Diffusionは、新しい形式のセルフコンディショニングを採用し、学習された埋め込み空間ではなく、ロジット単純空間に拡散プロセスを適用する。
我々は、TESSが最先端の非自己回帰モデルより優れており、性能の低下を最小限に抑えた拡散ステップを少なくし、事前訓練された自己回帰列列列列モデルと競合することを示した。
論文 参考訳(メタデータ) (2023-05-15T06:33:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。