論文の概要: Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion
- arxiv url: http://arxiv.org/abs/2503.10488v1
- Date: Thu, 13 Mar 2025 15:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:53:51.193499
- Title: Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion
- Title(参考訳): 高速転がり拡散による複合音声ジェスチャのストリーミング生成
- Authors: Evgeniia Vu, Andrei Boiarov, Dmitry Vetrov,
- Abstract要約: 本稿では,ストリーミングジェスチャ生成のための新しいフレームワークであるAccelerated Rolling Diffusionを紹介する。
RDLAはノイズスケジュールをステップワイドのはしごに再構成し、複数のフレームを同時に復調できる。
これにより、動作一貫性を維持しながらサンプリング効率が大幅に向上し、最大2倍のスピードアップが達成される。
- 参考スコア(独自算出の注目度): 0.881371061335494
- License:
- Abstract: Generating co-speech gestures in real time requires both temporal coherence and efficient sampling. We introduce Accelerated Rolling Diffusion, a novel framework for streaming gesture generation that extends rolling diffusion models with structured progressive noise scheduling, enabling seamless long-sequence motion synthesis while preserving realism and diversity. We further propose Rolling Diffusion Ladder Acceleration (RDLA), a new approach that restructures the noise schedule into a stepwise ladder, allowing multiple frames to be denoised simultaneously. This significantly improves sampling efficiency while maintaining motion consistency, achieving up to a 2x speedup with high visual fidelity and temporal coherence. We evaluate our approach on ZEGGS and BEAT, strong benchmarks for real-world applicability. Our framework is universally applicable to any diffusion-based gesture generation model, transforming it into a streaming approach. Applied to three state-of-the-art methods, it consistently outperforms them, demonstrating its effectiveness as a generalizable and efficient solution for real-time, high-fidelity co-speech gesture synthesis.
- Abstract(参考訳): リアルタイムにコ音声ジェスチャを生成するには、時間的コヒーレンスと効率的なサンプリングの両方が必要である。
そこで,本研究では,構造化されたプログレッシブノイズスケジューリングによる転がり拡散モデルを拡張し,現実性と多様性を保ちつつ,シームレスな長時間動作合成を可能にする,ストリーミングジェスチャ生成のための新しいフレームワークであるAccelerated Rolling Diffusionを紹介する。
さらに,複数のフレームを同時に復号化できるように,ノイズスケジュールを段階的にラグに再構成する新しい手法であるRDLAを提案する。
これにより、動作一貫性を維持しながらサンプリング効率を大幅に改善し、視覚的忠実度と時間的コヒーレンスの高い2倍のスピードアップを達成する。
ZEGGSとBEATに対する我々のアプローチは、実世界の適用性を示す強力なベンチマークである。
我々のフレームワークは、拡散に基づくジェスチャ生成モデルに普遍的に適用でき、ストリーミングアプローチに変換される。
最先端の3つの手法に適用すると、それらよりも一貫して優れ、リアルタイムで高忠実な音声合成のための一般化可能かつ効率的な解法としての有効性を示す。
関連論文リスト
- Latent Swap Joint Diffusion for Long-Form Audio Generation [38.434225760834146]
Swap Forwardは、フレームレベルの遅延スワップフレームワークで、フォワードのみの方法で、よりスペクトルの詳細なグローバルコヒーレントなロングオーディオを生成する。
実験により、SaFaは既存のジョイント拡散法やトレーニングベースのロングオーディオ生成モデルよりも大幅に優れていることが示された。
またパノラマ生成にも適しており、高い効率とモデル一般化性で同等の最先端性能を達成できる。
論文 参考訳(メタデータ) (2025-02-07T18:02:47Z) - Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models [64.2445487645478]
大規模言語モデルは、テキストやオーディオなどのストリーミングデータの生成において顕著な効果を示している。
本稿では,一方向の時間的注意を向けたビデオ拡散モデルを設計するための最初の試みであるLive2Diffを紹介する。
論文 参考訳(メタデータ) (2024-07-11T17:34:51Z) - Motion-aware Latent Diffusion Models for Video Frame Interpolation [51.78737270917301]
隣接するフレーム間の動き推定は、動きのあいまいさを避ける上で重要な役割を担っている。
我々は、新しい拡散フレームワーク、動き認識潜在拡散モデル(MADiff)を提案する。
提案手法は,既存手法を著しく上回る最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-21T05:09:56Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - EMDM: Efficient Motion Diffusion Model for Fast and High-Quality Motion Generation [57.539634387672656]
現在の最先端生成拡散モデルでは、優れた結果が得られたが、品質を犠牲にすることなく、高速な生成に苦慮している。
高速かつ高品質な人体運動生成のための効率的な運動拡散モデル(EMDM)を提案する。
論文 参考訳(メタデータ) (2023-12-04T18:58:38Z) - TEDi: Temporally-Entangled Diffusion for Long-Term Motion Synthesis [27.23431793291876]
運動系列の時間軸に段階的拡散の概念を適用することを提案する。
私たちのキーとなる考え方は、DDPMフレームワークを拡張して、時間的に異なるデノイングをサポートし、2つの軸を絡み合わせることです。
この新しいメカニズムは、キャラクターアニメーションや他のドメインへの応用により、長期動作合成のための新しいフレームワークへの道を開く。
論文 参考訳(メタデータ) (2023-07-27T17:48:44Z) - Taming Diffusion Models for Audio-Driven Co-Speech Gesture Generation [41.292644854306594]
DiffGesture (DiffGesture) という,拡散に基づく新しいフレームワークを提案する。
DiffGestureは、より優れたモードカバレッジとより強力なオーディオ相関を備えたコヒーレントなジェスチャーをレンダリングする、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-16T07:32:31Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。