論文の概要: Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems
- arxiv url: http://arxiv.org/abs/2512.17648v1
- Date: Fri, 19 Dec 2025 14:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.440403
- Title: Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems
- Title(参考訳): Simulstream: 音声からテキストへの翻訳システムの評価とデモのためのオープンソースツールキット
- Authors: Marco Gaido, Sara Papi, Mauro Cettolo, Matteo Negri, Luisa Bentivogli,
- Abstract要約: Streaming Speech-to-Text Translation (StreamST) は、受信した音声と同時翻訳を必要とする。
SimulEvalリポジトリはもはやメンテナンスされておらず、出力を更新するシステムをサポートしていない。
我々は,StreamSTシステムの統一評価と実証を目的とした,最初のオープンソースフレームワークであるsimulstreamを紹介した。
- 参考スコア(独自算出の注目度): 32.41110835446445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Streaming Speech-to-Text Translation (StreamST) requires producing translations concurrently with incoming speech, imposing strict latency constraints and demanding models that balance partial-information decision-making with high translation quality. Research efforts on the topic have so far relied on the SimulEval repository, which is no longer maintained and does not support systems that revise their outputs. In addition, it has been designed for simulating the processing of short segments, rather than long-form audio streams, and it does not provide an easy method to showcase systems in a demo. As a solution, we introduce simulstream, the first open-source framework dedicated to unified evaluation and demonstration of StreamST systems. Designed for long-form speech processing, it supports not only incremental decoding approaches, but also re-translation methods, enabling for their comparison within the same framework both in terms of quality and latency. In addition, it also offers an interactive web interface to demo any system built within the tool.
- Abstract(参考訳): Streaming Speech-to-Text Translation (StreamST) は、入力される音声と同時翻訳し、厳密なレイテンシ制約を課し、部分的な情報決定と高い翻訳品質のバランスを取るモデルを要求する。
これまでのところ、このトピックの研究はSimulEvalリポジトリに依存しており、もはやメンテナンスされておらず、アウトプットを更新するシステムをサポートしていない。
さらに、長大なオーディオストリームではなく、短いセグメントの処理をシミュレートするように設計されており、デモでシステムを示す簡単な方法を提供していない。
解決策として,StreamSTシステムの統一評価と実証を目的とした,最初のオープンソースフレームワークであるsimulstreamを紹介する。
長文の音声処理用に設計されており、インクリメンタルデコードアプローチだけでなく、再翻訳手法もサポートしており、品質とレイテンシの両方において、同じフレームワーク内での比較を可能にする。
さらに、ツール内に構築されたシステムをデモするためのインタラクティブなWebインターフェースも提供する。
関連論文リスト
- StreamUni: Achieving Streaming Speech Translation with a Unified Large Speech-Language Model [20.978001644716063]
ストリーム音声翻訳(StreamST)は、ポリシーとして知られる適切なタイミングで翻訳を生成する必要がある。
既存のStreamSTメソッドは通常、同時音声翻訳(SimulST)と呼ばれる文レベルの音声セグメントで動作する。
本稿では,Large Speech-Language Model (LSLM) を用いてStreamSTを実現するStreamUniを提案する。
論文 参考訳(メタデータ) (2025-07-10T14:28:39Z) - StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。
高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。
オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文 参考訳(メタデータ) (2025-06-14T16:53:39Z) - Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling [76.23539797803681]
既存の手法は主に、自然なストリーミング音声合成を実現するために、将来のテキストに依存するルックメカニズムを使用している。
本稿では,高品質な音声フレームをフレーム単位で生成するためのストリーミングフレームワークLEを提案する。
実験結果から,LEは現行のストリーミングTTS法より優れ,文レベルのTSシステムよりも高い性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:25:01Z) - High-Fidelity Simultaneous Speech-To-Speech Translation [75.69884829562591]
本稿では,同時音声翻訳のためのデコーダのみのモデルであるHibikiを紹介する。
Hibikiは、マルチストリーム言語モデルを利用して、ソースとターゲットの音声を同期的に処理し、テキストとオーディオトークンを共同で生成し、音声からテキストへの変換と音声から音声への変換を行う。
論文 参考訳(メタデータ) (2025-02-05T17:18:55Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - UniST: Unified End-to-end Model for Streaming and Non-streaming Speech
Translation [12.63410397982031]
我々は、ストリーミングおよび非ストリーミング音声翻訳をサポートする統一モデル(UniST)を開発した。
最も人気のある音声からテキストへの翻訳ベンチマークデータセットである MuST-C の実験は、UniST が非ストリーミングSTに対して大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2021-09-15T15:22:10Z) - A low latency ASR-free end to end spoken language understanding system [11.413018142161249]
本研究は,最小レイテンシでマイクロコントローラや組み込みシステム上で動作可能な,フットプリントの少ないシステムを提案する。
ストリーム入力音声信号が与えられた場合,処理時にストリーム全体を保持する必要がなく,セグメント単位で処理することができる。
実験の結果,提案システムでは,同じタスクにおける他の論文と比較した場合,低レイテンシとはるかに少ないモデルにより,最先端の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-10T04:16:56Z) - Streaming Simultaneous Speech Translation with Augmented Memory
Transformer [29.248366441276662]
トランスフォーマーに基づくモデルは、音声翻訳タスクにおける最先端のパフォーマンスを達成した。
本稿では,拡張メモリ変換器エンコーダを備えたエンドツーエンド変換器を用いたシーケンス・ツー・シーケンスモデルを提案する。
論文 参考訳(メタデータ) (2020-10-30T18:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。