論文の概要: StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration
- arxiv url: http://arxiv.org/abs/2605.25659v1
- Date: Mon, 25 May 2026 10:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.641861
- Title: StreamChar: Long-Horizon Streaming Character Audio-Video Generation with Decoupled Orchestration
- Title(参考訳): StreamChar: 分離オーケストレーションによる長軸ストリーミングキャラクタのオーディオビデオ生成
- Authors: Linrui Tian, Qi Wang, Bang Zhang,
- Abstract要約: StreamCharは,短時間のオーディオビデオから長期のオーケストレーションを分離するストリーミングフレームワークである。
ショートクリップおよびロングホライゾンプロトコルの実験は、StreamCharが1つのH100 GPU上でリアルタイムに実行されることを示している。
- 参考スコア(独自算出の注目度): 16.23723735702324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time streaming joint audio-video generation for character animation requires a generator to speak the requested transcript, maintain visual identity across chunks, and run within a strict playback budget. These requirements are difficult to satisfy simultaneously: chunk-wise autoregressive generation can accumulate transcript-audio misalignment and visual drift, while the few-step distillation needed for low latency often degrades spatial diversity and temporal quality. We present StreamChar, a streaming framework that separates long-horizon orchestration from short-window audio-video denoising. An LLM-based orchestrator uses the transcript and historical context to produce frame-aligned audio conditions, and a joint audio-video DiT performs local bidirectional denoising with reference and motion-frame conditioning. For efficient deployment, we use a two-stage distillation pipeline that first compresses the sampler and then fine-tunes the student under online chunk rollouts. A progress-aware pointer aligns partial transcripts with generated audio during rollout training, and a sink-chunk memory provides a persistent visual anchor for reducing long-horizon drift. Experiments on short-clip and long-horizon protocols show that StreamChar runs in real time on a single H100 GPU and provides a favorable system-level trade-off among transcript fidelity, audio-visual synchronization, visual quality, and streaming stability compared with recent joint and audio-driven baselines.
- Abstract(参考訳): キャラクタアニメーションのためのリアルタイムストリーミングジョイントオーディオビデオ生成には、要求された書き起こしを話し、チャンクをまたいで視覚的アイデンティティを保持し、厳格な再生予算内で実行する必要がある。
これらの要件を同時に満たすことは困難である:チャンクワイド自己回帰生成はトランスクリプト・オーディオのミスアライメントと視覚的ドリフトを蓄積でき、低レイテンシに必要な数ステップの蒸留は空間的多様性と時間的品質を低下させる。
StreamCharは,短時間のオーディオビデオから長期のオーケストレーションを分離するストリーミングフレームワークである。
LLMベースのオーケストレータは、書き起こしと履歴のコンテキストを用いてフレーム整列オーディオ条件を生成し、ジョイントオーディオビデオDiTは、参照およびモーションフレーム条件付きで、局所的な双方向化を行う。
効率的な展開には、2段階の蒸留パイプラインを使用し、まずサンプルを圧縮し、次にオンラインのチャンクロールアウトで生徒を微調整する。
プログレッシブ・アウェア・ポインタは、ロールアウトトレーニング中に生成されたオーディオと部分的書き起こしを調整し、シンク・チャンクメモリは、長時間水平ドリフトを減らすための永続的な視覚的アンカーを提供する。
ショートクリップとロングホライゾンプロトコルの実験では、StreamCharは1つのH100 GPU上でリアルタイムに動作し、最近の関節およびオーディオ駆動ベースラインと比較して、トランスクリプトの忠実さ、オーディオ-視覚同期、視覚的品質、ストリーミング安定性の間で良好なシステムレベルのトレードオフを提供する。
関連論文リスト
- Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows [75.44753202066171]
ビデオ入力に基づくコーディネートオーディオ生成は、通常、厳格なオーディオ・ビジュアル・アライメント(AV)を必要とする。
マスク付きモデリングトレーニングにより,まずFoleyFlowを用いて非モード型AVエンコーダのアライメントを行う。
トレーニング後、単調データのみを用いて個別に事前訓練されたAVエンコーダは、意味的およびリズム的整合性に整合する。
論文 参考訳(メタデータ) (2026-03-09T09:06:25Z) - Voxtral Realtime [134.66962524291424]
Voxtral Realtimeはストリーミング自動音声認識モデルである。
オフラインの書き込み品質は、秒以下のレイテンシで一致します。
私たちはApache 2.0ライセンスの下でモデルウェイトをリリースしています。
論文 参考訳(メタデータ) (2026-02-11T19:17:10Z) - StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation [91.45910771331741]
オーディオ駆動型アバタービデオ生成のための現在の拡散モデルでは、自然な音声同期とアイデンティティの整合性を備えた長ビデオの合成が困難である。
本稿では,無限長高画質映像を後処理なしで合成する最初のエンドツーエンドビデオ拡散変換器であるStableAvatarについて述べる。
論文 参考訳(メタデータ) (2025-08-11T17:58:24Z) - StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。
高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。
オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文 参考訳(メタデータ) (2025-06-14T16:53:39Z) - Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [19.694770666874827]
音声合成はマルチメディア生産に不可欠であり、音声とビデオの同期によってユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds [14.636030346325578]
我々は,ビデオと同期する高品質な音響効果の自動生成であるNeural Foleyについて検討し,没入型音声視覚体験を実現する。
本稿では,高品質な音声生成を実現するために,事前学習されたテキスト・音声モデルを活用する新しいフレームワークであるFoleyCrafterを提案する。
FoleyCrafterの特筆すべき利点は、テキストプロンプトとの互換性である。
論文 参考訳(メタデータ) (2024-07-01T17:35:56Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。