論文の概要: DyStream: Streaming Dyadic Talking Heads Generation via Flow Matching-based Autoregressive Model
- arxiv url: http://arxiv.org/abs/2512.24408v1
- Date: Tue, 30 Dec 2025 18:43:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.464845
- Title: DyStream: Streaming Dyadic Talking Heads Generation via Flow Matching-based Autoregressive Model
- Title(参考訳): DyStream:フローマッチングに基づく自己回帰モデルによる対話ヘッドのストリーミング
- Authors: Bohong Chen, Haiyang Liu,
- Abstract要約: DyStreamはフローマッチングベースの自動回帰モデルで、スピーカーとリスナーの両方のオーディオからリアルタイムでビデオを生成することができる。
1フレームあたり34ミリ秒以内にビデオを生成することができ、システム全体のレイテンシが100ミリ秒以下であることを保証する。
オフラインおよびオンラインのLipSync ConfidenceスコアはHDTFの8.13と7.61である。
- 参考スコア(独自算出の注目度): 7.852008880859938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating realistic, dyadic talking head video requires ultra-low latency. Existing chunk-based methods require full non-causal context windows, introducing significant delays. This high latency critically prevents the immediate, non-verbal feedback required for a realistic listener. To address this, we present DyStream, a flow matching-based autoregressive model that could generate video in real-time from both speaker and listener audio. Our method contains two key designs: (1) we adopt a stream-friendly autoregressive framework with flow-matching heads for probabilistic modeling, and (2) We propose a causal encoder enhanced by a lookahead module to incorporate short future context (e.g., 60 ms) to improve quality while maintaining low latency. Our analysis shows this simple-and-effective method significantly surpass alternative causal strategies, including distillation and generative encoder. Extensive experiments show that DyStream could generate video within 34 ms per frame, guaranteeing the entire system latency remains under 100 ms. Besides, it achieves state-of-the-art lip-sync quality, with offline and online LipSync Confidence scores of 8.13 and 7.61 on HDTF, respectively. The model, weights and codes are available.
- Abstract(参考訳): リアルな対話ヘッドビデオを生成するには、超低レイテンシが必要です。
既存のチャンクベースの手法では、完全な非因果コンテキストウィンドウが必要であり、重大な遅延が発生する。
この高いレイテンシは、現実的なリスナーに必要な即時かつ非言語的なフィードバックを著しく妨げます。
そこで我々はDyStreamを提案する。DyStreamはフローマッチングに基づく自動回帰モデルで、話者とリスナーの両方のオーディオからリアルタイムでビデオを生成することができる。
提案手法は,(1)フローマッチングヘッドを備えたストリームフレンドリーな自己回帰フレームワークを確率的モデリングに適用し,(2)ルックアヘッドモジュールによって強化された因果エンコーダを提案し,短期的なコンテキスト(例えば60ms)を組み込んで低レイテンシを維持しながら品質を向上させる。
本手法は, 蒸留法や生成エンコーダなど, 代替因果戦略をはるかに上回っている。
大規模な実験によると、DyStreamは1フレームあたり34ミリ秒でビデオを生成することができ、システム全体のレイテンシが100ミリ秒以下であることを保証する。また、オフラインとオンラインのLipSync ConfidenceスコアがHDTFでそれぞれ8.13と7.61と、最先端のリップ同期品質を達成する。
モデル、ウェイト、コードも利用可能だ。
関連論文リスト
- Real-Time Streamable Generative Speech Restoration with Flow Matching [35.33575179870606]
Stream$.$FMは、32ミリ秒(ms)のアルゴリズム待ち時間と48ミリ秒の総待ち時間を持つフレーム因果フローベースの生成モデルである。
現在利用可能なGPUでは,高品質なストリーミング生成音声処理が実現可能であることを示す。
論文 参考訳(メタデータ) (2025-12-22T14:41:17Z) - StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。
ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。
ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。 タイム・ツー・ファーストフレームは最小限でなければなりません。
論文 参考訳(メタデータ) (2025-11-10T18:51:28Z) - MotionStream: Real-Time Video Generation with Interactive Motion Controls [60.403597895657505]
単一GPU上で最大29FPSのストリーミング生成が可能なサブ秒レイテンシを実現するMotionStreamを提案する。
提案手法は,グローバルなテキストプロンプトとローカルなモーションガイダンスに準拠する高品質なビデオを生成するが,リアルタイムでは推論を行わないモーションコントロールによるテキスト・ツー・ビデオモデルの拡張から始まる。
我々のモデルでは、動きの追従と映像の質を2桁高速化し、無限長のストリーミングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T06:37:53Z) - Diffusion Buffer for Online Generative Speech Enhancement [32.98694610706198]
Diffusion Bufferは生成拡散に基づく音声強調モデルである。
データストリームから受信する信号フレーム毎に1つのニューラルネットワークコールしか必要としない。
コンシューマグレードのGPU上で、オンライン形式で拡張を実行する。
論文 参考訳(メタデータ) (2025-10-21T15:52:33Z) - SoundReactor: Frame-level Online Video-to-Audio Generation [39.113214321291586]
Video-to-Audio生成モデルは、ビデオシーケンス全体やフレームのチャンクが事前に用意されていることを前提として、オフラインで動作する。
本稿では,フレームレベルのオンラインV2A生成の新たな課題を紹介する。
SoundReactorは、このタスク用に明示的に調整された、最初のシンプルで効果的なフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T15:18:00Z) - READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。
提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。
また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-05T13:57:03Z) - BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models [62.38713281234756]
バイノーラルレンダリングパイプラインは、モノラルオーディオに基づいて自然な聴覚を模倣するオーディオを合成することを目的としている。
この問題を解決するために多くの方法が提案されているが、レンダリング品質とストリーミング可能な推論に苦慮している。
本稿では,BinauralFlow合成フレームワークという,フローマッチングに基づくストリーミング音声フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T20:59:15Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。