論文の概要: DiscoForcing: A Unified Framework for Real-Time Audio-Driven Character Control with Diffusion Forcing
- arxiv url: http://arxiv.org/abs/2605.28491v1
- Date: Wed, 27 May 2026 13:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.089908
- Title: DiscoForcing: A Unified Framework for Real-Time Audio-Driven Character Control with Diffusion Forcing
- Title(参考訳): DiscoForcing: 拡散強制によるリアルタイムオーディオ駆動文字制御のための統一フレームワーク
- Authors: Kaiyang Ji, Bingsheng Qian, Binghuan Wu, Kangyi Chen, Ye Shi, Jingya Wang,
- Abstract要約: ストリーミングオーディオ駆動拡散フレームワークであるDiscoForcingを紹介する。
不均一ノイズレベル下で訓練された拡散強制シーケンスモデルを用いて、リズミカル構造と位相ダイナミクスをキャプチャする。
因果関係や遅延制約にマッチしたベースラインよりも、より安定したロングホライゾンロールアウトとオーディオモーションアライメントを提供する。
- 参考スコア(独自算出の注目度): 27.626489251186968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study real-time audio-responsive character control as a deployment-faithful problem: strictly causal, bounded-latency streaming that must generate coherent full-body motion at interactive frame rates while the audio condition can change abruptly, including tempo shifts, drops, or user edits. Prior music-to-motion systems are largely optimized for offline generation with global context, and degrade in streaming rollouts where conditioning history becomes stale or unreliable. We introduce DiscoForcing, a streaming audio-driven diffusion framework that combines a causal music encoder that captures rhythmic structure and phase dynamics with a diffusion-forcing sequence model trained under heterogeneous noise levels across the temporal horizon. Building on this, we design a hybrid temporal schedule and a history-guided streaming sampler to explicitly trade off responsiveness against long-horizon consistency under non-stationary audio. Implemented in an end-to-end real-time interactive system with online avatar playback and humanoid deployment workflows, DiscoForcing delivers more stable long-horizon rollouts and sharper audio-motion alignment than prior baselines under matched causality and latency constraints while maintaining real-time throughput.
- Abstract(参考訳): 我々は、リアルタイム音声応答型文字制御を、配置に忠実な問題として研究する:厳密に因果的、有界なレイテンシストリーミングは、対話的なフレームレートでコヒーレントな全体の動きを発生させなければならないが、オーディオ条件は、テンポシフト、ドロップ、ユーザー編集など、突然変化する可能性がある。
従来の音楽とモーションのシステムは、グローバルなコンテキストでオフライン生成に最適化されており、コンディショニング履歴が不安定あるいは信頼性の低いストリーミングロールアウトでは劣化する。
本研究では、リズム構造と位相ダイナミクスを捉える因果的音楽エンコーダと、時間的地平線を横断する異種雑音レベルで訓練された拡散強制シーケンスモデルを組み合わせた、ストリーミングオーディオ駆動拡散フレームワークであるDiscoForcingを紹介する。
これに基づいて,非定常音声下での長軸整合性に対する応答性を明示的に抑えるために,ハイブリッド時間スケジュールと履歴誘導型ストリーミングサンプリングを設計する。
オンラインアバター再生とヒューマノイドデプロイメントワークフローを備えたエンドツーエンドのインタラクティブシステムで実装されたDiscoForcingは、リアルタイムスループットを維持しながら、一致した因果性とレイテンシの制約の下で、以前のベースラインよりも安定したロングホライゾンロールアウトとオーディオモーションアライメントを提供する。
関連論文リスト
- EchoAvatar: Real-time Generative Avatar Animation from Audio Streams [31.328378976492775]
本稿では,低レイテンシでストリーミング音声と音楽から連続的でコヒーレントなフルボディモーションを生成するための新しいフレームワークを提案する。
この制御性とストリーム音声駆動合成を組み合わせることで,音声エージェントを対話型ヒューマノイドアバターに変換するためのプラグアンドプレイソリューションとして機能する。
論文 参考訳(メタデータ) (2026-05-27T10:18:16Z) - StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration [16.23723735702324]
StreamCharは,短時間のオーディオビデオから長期のオーケストレーションを分離するストリーミングフレームワークである。
ショートクリップおよびロングホライゾンプロトコルの実験は、StreamCharが1つのH100 GPU上でリアルタイムに実行されることを示している。
論文 参考訳(メタデータ) (2026-05-25T10:04:52Z) - Personalizing Causal Audio-Driven Facial Motion via Dynamic Multi-modal Retrieval [16.85147888618743]
因果顔の動き生成をパーソナライズするためのエンドツーエンドの因果的枠組みを提案する。
本手法は, リップ同期の精度, アイデンティティの整合性, 認識リアリズムにおいて, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2026-04-26T13:15:08Z) - CoSyncDiT: Cognitive Synchronous Diffusion Transformer for Movie Dubbing [76.74048814837336]
映画ダビングは、ターゲット映像中の唇の動きと同期しながら、参照音声の音声アイデンティティを保持する音声を合成することを目的としている。
既存の方法は正確なリップシンクを達成できず、持続時間レベルでの明示的なアライメントによって自然性を欠いている。
認知同期拡散変換器(CoSync-DiT)により駆動される新しいフローマッチング型フィルムダビングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T05:03:57Z) - OmniForcing: Unleashing Real-time Joint Audio-Visual Generation [51.031726911410594]
最近のジョイントオーディオ・視覚拡散モデルは、優れた生成品質を実現するが、高いレイテンシーに悩まされる。
OmniForcingは、オフラインの双方向拡散モデルを高忠実度ストリーミングオートレジェネレータに蒸留する最初のフレームワークである。
論文 参考訳(メタデータ) (2026-03-12T08:17:36Z) - Knot Forcing: Taming Autoregressive Video Diffusion Models for Real-time Infinite Interactive Portrait Animation [16.692450893925148]
リアルタイム・ポートレート・アニメーションのためのKnot Forcingという新しいストリーミング・フレームワークを提案する。
Kノットフォーシングは、無限列上の高忠実で時間的に一貫性があり、インタラクティブなポートレートアニメーションを可能にする。
論文 参考訳(メタデータ) (2025-12-25T16:34:56Z) - LILAC: Long-sequence Incremental Low-latency Arbitrary Motion Stylization via Streaming VAE-Diffusion with Causal Decoding [5.946860384629338]
LILACは、任意のモーションスタイリングのための最近の高性能オフラインフレームワークの上に構築されている。
それは、スライディングウインドウの因果設計で、潜在空間のストリーミングアーキテクチャを通じて、オンライン環境に拡張する。
このアーキテクチャは、将来のフレームに依存したり、拡散モデルアーキテクチャを変更することなく、リアルタイムな任意のスタイル化を可能にする。
論文 参考訳(メタデータ) (2025-10-17T07:45:43Z) - StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation [91.45910771331741]
オーディオ駆動型アバタービデオ生成のための現在の拡散モデルでは、自然な音声同期とアイデンティティの整合性を備えた長ビデオの合成が困難である。
本稿では,無限長高画質映像を後処理なしで合成する最初のエンドツーエンドビデオ拡散変換器であるStableAvatarについて述べる。
論文 参考訳(メタデータ) (2025-08-11T17:58:24Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。