Fugu-MT 論文翻訳(概要): VoxServe: Streaming-Centric Serving System for Speech Language Models

論文の概要: VoxServe: Streaming-Centric Serving System for Speech Language Models

arxiv url: http://arxiv.org/abs/2602.00269v1
Date: Fri, 30 Jan 2026 19:45:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-03 19:28:33.088299
Title: VoxServe: Streaming-Centric Serving System for Speech Language Models
Title（参考訳）: VoxServe:音声モデルのためのストリーミング中心サービングシステム
Authors: Keisuke Kamahori, Wei-Tzu Lee, Atindra Jha, Rohan Kadekodi, Stephanie Wang, Arvind Krishnamurthy, Baris Kasikci,
Abstract要約: 本稿では,ストリーミング性能を最適化するSpeechLMのための統合サービスシステムであるVoxServeを提案する。 VoxServeは、モデルアーキテクチャをシステムレベルの最適化から切り離すモデル実行抽象化を導入している。我々は,VoxServeが既存のSpeechLMの10～20倍のスループットを実現していることを示す。
参考スコア（独自算出の注目度）: 7.881063500849597
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deploying modern Speech Language Models (SpeechLMs) in streaming settings requires systems that provide low latency, high throughput, and strong guarantees of streamability. Existing systems fall short of supporting diverse models flexibly and efficiently. We present VoxServe, a unified serving system for SpeechLMs that optimizes streaming performance. VoxServe introduces a model-execution abstraction that decouples model architecture from system-level optimizations, thereby enabling support for diverse SpeechLM architectures within a single framework. Building on this abstraction, VoxServe implements streaming-aware scheduling and an asynchronous inference pipeline to improve end-to-end efficiency. Evaluations across multiple modern SpeechLMs show that VoxServe achieves 10-20x higher throughput than existing implementations at comparable latency while maintaining high streaming viability. The code of VoxServe is available at https://github.com/vox-serve/vox-serve.
Abstract（参考訳）: ストリーミング設定にモダンな音声言語モデル(SpeechLM)をデプロイするには、低レイテンシ、高いスループット、ストリーミング可能性の強い保証を提供するシステムが必要である。既存のシステムは、柔軟かつ効率的に多様なモデルをサポートできない。本稿では,ストリーミング性能を最適化するSpeechLMのための統合サービスシステムであるVoxServeを提案する。 VoxServeはモデル実行抽象化を導入し、モデルアーキテクチャをシステムレベルの最適化から切り離し、単一のフレームワーク内で多様なSpeechLMアーキテクチャをサポートする。この抽象化に基づいて、VoxServeはストリーミング対応のスケジューリングと非同期推論パイプラインを実装し、エンドツーエンドの効率を改善する。複数のモダンなSpeechLMを評価すると、VoxServeはストリーミングの信頼性を維持しながら、同等のレイテンシで既存の実装よりも10～20倍高いスループットを実現している。 VoxServeのコードはhttps://github.com/vox-serve/vox-serve.comで公開されている。

関連論文リスト

LTX-2: Efficient Joint Audio-Visual Foundation Model [3.1804093402153506]
LTX-2は、時間的に同期されたオーディオヴィジュアルコンテンツを生成できるオープンソースモデルである。より広範な理解のために多言語テキストエンコーダを用いる。 LTX-2は、各シーンのキャラクター、環境、スタイル、感情に従うリッチでコヒーレントなオーディオトラックを生成する。
論文参考訳（メタデータ） (2026-01-06T18:24:41Z)
Asynchronous Pipeline Parallelism for Real-Time Multilingual Lip Synchronization in Video Communication Systems [0.21748200848556343]
提案アーキテクチャは,パイプライン並列設計に翻訳,音声処理,リップ同期モジュールを統合する。シーケンシャルアプローチと比較して、エンドツーエンドのレイテンシを最大3.1倍削減する。この研究は、次世代AIoTシステムのための低レイテンシ、リソース効率のマルチモーダル通信フレームワークの開発を前進させる。
論文参考訳（メタデータ） (2025-12-20T11:23:18Z)
Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems [32.41110835446445]
Streaming Speech-to-Text Translation (StreamST) は、受信した音声と同時翻訳を必要とする。 SimulEvalリポジトリはもはやメンテナンスされておらず、出力を更新するシステムをサポートしていない。我々は,StreamSTシステムの統一評価と実証を目的とした,最初のオープンソースフレームワークであるsimulstreamを紹介した。
論文参考訳（メタデータ） (2025-12-19T14:48:59Z)
StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation [65.90400162290057]
生成モデルは、コンテンツの作り方、スタイル、配信方法を再定義することで、ライブストリーミング業界を変革している。ビデオ拡散の最近の進歩は、オフライン生成のための時間的一貫性とサンプリング効率を著しく改善した。ライブオンラインストリーミングは厳しいサービスレベル(SLO)の下で動作します。タイム・ツー・ファーストフレームは最小限でなければなりません。
論文参考訳（メタデータ） (2025-11-10T18:51:28Z)
StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling [27.468345201477504]
実世界の環境におけるVLN(Vision-and-Language Navigation)では、エージェントが連続的なビジュアルストリームを処理し、言語命令に基礎を置く低レイテンシでアクションを生成する必要がある。本稿では,ストリームVLNフレームワークについて紹介する。ストリームVLNは,マルチモーダル推論をサポートするために,低速コンテキストモデリングをハイブリッドで実現する。 VLN-CEベンチマークの実験では、最先端のパフォーマンスが安定した低レイテンシで、現実のデプロイメントにおける堅牢性と効率が保証されている。
論文参考訳（メタデータ） (2025-07-07T17:49:41Z)
StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文参考訳（メタデータ） (2025-06-14T16:53:39Z)
PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling [95.2927277964409]
On-AVEP(On-AVEP: Online Audio-Visual Event Parsing)は、入ってくる映像ストリームを逐次解析することで、音声、視覚、視覚イベントを解析するための新しいパラダイムである。本稿では,(a)予測的マルチモーダル・フューチャー・モデリングが特徴とする予測的未来・モデリング・フレームワークを提案する。実験により、PreFMは、パラメータが大幅に少ない大きなマージンで最先端の手法を著しく上回ることが示された。
論文参考訳（メタデータ） (2025-05-29T06:46:19Z)
STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
Streaming Video Understanding and Multi-round Interaction with Memory-enhanced Knowledge [57.01131456894516]
現在のビデオ理解モデルは、長いビデオシーケンスの処理、マルチターン対話のサポート、現実の動的シナリオへの適応に苦労している。本稿では,ストリーミングビデオ推論と対話インタラクションのためのトレーニング不要フレームワークStreamChatを提案する。我々のフレームワークは並列システムスケジューリング戦略を取り入れており、処理速度を向上し、レイテンシを低減し、現実世界のアプリケーションで堅牢な性能を保証する。
論文参考訳（メタデータ） (2025-01-23T08:33:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。