論文の概要: StreamWise: Serving Multi-Modal Generation in Real-Time at Scale
- arxiv url: http://arxiv.org/abs/2603.05800v1
- Date: Fri, 06 Mar 2026 01:22:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.87647
- Title: StreamWise: Serving Multi-Modal Generation in Real-Time at Scale
- Title(参考訳): StreamWise: 大規模でリアルタイムにマルチモーダル生成を実現する
- Authors: Haoran Qiu, Gohar Irfan Chaudhry, Chaojie Zhang, Íñigo Goiri, Esha Choukse, Rodrigo Fonseca, Ricardo Bianchini,
- Abstract要約: マルチモーダル生成モデルは、ストーリーテリングから自動メディア合成まで、新しいアプリケーションを可能にする。
現在、大規模にリアルタイムなマルチモーダルを提供するには費用がかかり複雑であり、多様なモデルの効率的な調整が必要である。
適応的でモジュール型のサービスシステムであるStreamWiseを設計し、品質(解像度、シャープさなど)、モデル/コンテンツ並列性、リソースを意識したスケジューリングを動的に管理する。
- 参考スコア(独自算出の注目度): 7.73695790907204
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Advances in multi-modal generative models are enabling new applications, from storytelling to automated media synthesis. Most current workloads generate simple outputs (e.g., image generation from a prompt) in batch mode, often requiring several seconds even for basic results. Serving real-time multi-modal workflows at scale is costly and complex, requiring efficient coordination of diverse models (each with unique resource needs) across language, audio, image, and video, all under strict latency and resource constraints. We tackle these challenges through the lens of real-time podcast video generation, integrating LLMs, text-to-speech, and video-audio generation. To meet tight SLOs, we design an adaptive, modular serving system, StreamWise, that dynamically manages quality (e.g., resolution, sharpness), model/content parallelism, and resource-aware scheduling. We leverage heterogeneous hardware to maximize responsiveness and efficiency. For example, the system can lower video resolution and allocate more resources to early scenes. We quantify the trade-offs between latency, cost, and quality. The cheapest setup generates a 10-minute podcast video on A100 GPUs in 1.4 hours (8.4x slower than the real-time) for less than \$25. StreamWise enables high-quality real-time streaming with a sub-second startup delay under $45.
- Abstract(参考訳): マルチモーダル生成モデルの進歩は、ストーリーテリングから自動メディア合成まで、新しいアプリケーションを可能にしている。
現在のワークロードのほとんどは、バッチモードで単純なアウトプット(プロンプトからのイメージ生成など)を生成し、基本的な結果であっても数秒を要します。
大規模にリアルタイムなマルチモーダルワークフローを実行するのは費用がかかり複雑で、言語、オーディオ、画像、ビデオなど、さまざまなモデルの効率的な調整を必要とする。
これらの課題は、リアルタイムポッドキャストビデオ生成のレンズ、LLM、テキスト音声合成、ビデオオーディオ生成の統合によって解決される。
厳密なSLOを満たすために、我々は、品質(例えば、解像度、シャープネス)、モデル/コンテンツ並列性、リソース対応スケジューリングを動的に管理する適応型モジュール型サービスシステムStreamWiseを設計する。
我々は不均一なハードウェアを活用し、応答性と効率を最大化する。
例えば、システムはビデオ解像度を下げ、早期シーンにより多くのリソースを割り当てることができる。
レイテンシ、コスト、品質の間のトレードオフを定量化します。
最も安価なセットアップでは、A100 GPU上で10分間のポッドキャストビデオを11.4時間(リアルタイムより8.4倍遅い)で25ドル以下で生成する。
StreamWiseは、秒未満の起動遅延を45ドル以下で、高品質なリアルタイムストリーミングを可能にする。
関連論文リスト
- MOVA: Towards Scalable and Synchronized Video-Audio Generation [91.56945636522345]
高品質で同期した映像コンテンツを生成できるオープンソースモデルMOVA(MOSS Video and Audio)を紹介する。
モデルウェイトとコードをリリースすることによって、研究を進め、クリエーターの活気あるコミュニティを育むことを目指しています。
論文 参考訳(メタデータ) (2026-02-09T15:31:54Z) - LLIA -- Enabling Low-Latency Interactive Avatars: Real-Time Audio-Driven Portrait Video Generation with Diffusion Models [17.858801012726445]
拡散に基づくモデルは、その卓越した表現力のために、仮想人間世代に広く採用されている。
本稿では,これらの課題に対処するための拡散モデルに基づく,新しいオーディオ駆動型ポートレートビデオ生成フレームワークを提案する。
本モデルでは,解像度384x384,解像度512x512で最大78FPS,ビデオ生成遅延140msと215msで最大78FPSを実現している。
論文 参考訳(メタデータ) (2025-06-06T07:09:07Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [84.25283710008785]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。