論文の概要: Voxtral Realtime
- arxiv url: http://arxiv.org/abs/2602.11298v1
- Date: Wed, 11 Feb 2026 19:17:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.501939
- Title: Voxtral Realtime
- Title(参考訳): ボクストラルリアルタイム
- Authors: Alexander H. Liu, Andy Ehrenberg, Andy Lo, Chen-Yo Sun, Guillaume Lample, Jean-Malo Delignon, Khyathi Raghavi Chandu, Patrick von Platen, Pavankumar Reddy Muddireddy, Rohin Arora, Sanchit Gandhi, Sandeep Subramanian, Soham Ghosh, Srijan Mishra, Abhinav Rastogi, Alan Jeffares, Albert Jiang, Alexandre Sablayrolles, Amélie Héliou, Andrew Bai, Angele Lenglemetz, Anmol Agarwal, Anton Eliseev, Antonia Calvi, Arjun Majumdar, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Benjamin Tibi, Clémence Lanfranchi, Connor Chen, Corentin Barreau, Corentin Sautier, Cyprien Courtot, Darius Dabert, Diego de las Casas, Elliot Chane-Sane, Enguerrand Paquin, Faruk Ahmed, Federico Baldassarre, Gabrielle Berrada, Gaëtan Ecrepont, Gauthier Guinet, Genevieve Hayes, Georgii Novikov, Giada Pistilli, Guillaume Martin, Gunjan Dhanuka, Gunshi Gupta, Han Zhou, Indraneel Mukherjee, Irene Zhang, Jaeyoung Kim, Jan Ludziejewski, Jason Rute, Joachim Studnia, John Harvill, Jonas Amar, Josselin Somerville Roberts, Julien Tauran, Karmesh Yadav, Kartik Khandelwal, Kush Jain, Laurence Aitchison, Léonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Maarten Buyl, Manan Sharma, Margaret Jennings, Marie Pellat, Mark Prins, Mathieu Poirée, Mathilde Guillaumin, Matthieu Dinot, Matthieu Futeral, Maxime Darrin, Maximilian Augustin, Mert Unsal, Mia Chiquier, Nathan Grinsztajn, Neha Gupta, Olivier Bousquet, Olivier Duchenne, Patricia Wang, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philomène Chagniot, Pierre Stock, Piotr Miłoś, Prateek Gupta, Pravesh Agrawal, Quentin Torroba, Ram Ramrakhya, Rishi Shah, Romain Sauvestre, Roman Soletskyi, Rosalie Millner, Sagar Vaze, Samuel Humeau, Siddharth Gandhi, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Théo Cachet, Theo Simon Sorg, Thibaut Lavril, Thomas Chabal, Thomas Foubert, Thomas Robert, Thomas Wang, Tim Lawson, Tom Bewley, Tom Edwards, Tyler Wang, Valeriia Nemychnikova, Van Phung, Vedant Nanda, Victor Jouault, Virgile Richard, Vladislav Bataev, Wassim Bouaziz, Wen-Ding Li, William Marshall, Xinghui Li, Xingran Guo, Xinyu Yang, Yannic Neuhaus, Yihan Wang, Zaccharie Ramzi, Zhenlin Xu,
- Abstract要約: Voxtral Realtimeはストリーミング自動音声認識モデルである。
オフラインの書き込み品質は、秒以下のレイテンシで一致します。
私たちはApache 2.0ライセンスの下でモデルウェイトをリリースしています。
- 参考スコア(独自算出の注目度): 134.66962524291424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Voxtral Realtime, a natively streaming automatic speech recognition model that matches offline transcription quality at sub-second latency. Unlike approaches that adapt offline models through chunking or sliding windows, Voxtral Realtime is trained end-to-end for streaming, with explicit alignment between audio and text streams. Our architecture builds on the Delayed Streams Modeling framework, introducing a new causal audio encoder and Ada RMS-Norm for improved delay conditioning. We scale pretraining to a large-scale dataset spanning 13 languages. At a delay of 480ms, Voxtral Realtime achieves performance on par with Whisper, the most widely deployed offline transcription system. We release the model weights under the Apache 2.0 license.
- Abstract(参考訳): 我々はVoxtral Realtimeを紹介した。Voxtral Realtimeは、オフラインの文字起こし品質をサブ秒レイテンシで一致させるネイティブストリーミング自動音声認識モデルである。
チャンクウィンドウやスライディングウィンドウを通じてオフラインモデルを適用するアプローチとは異なり、Voxtral Realtimeはストリーミングのためにエンドツーエンドでトレーニングされ、オーディオとテキストストリームの間に明確なアライメントがある。
我々のアーキテクチャは遅延ストリームモデリングフレームワーク上に構築されており、遅延条件を改善するために新しい因果的オーディオエンコーダとAda RMS-Normを導入している。
13の言語にまたがる大規模なデータセットに事前トレーニングをスケールします。
480msの遅延で、Voxtral Realtimeは最も広くデプロイされたオフラインの書き起こしシステムであるWhisperと同等のパフォーマンスを達成する。
私たちはApache 2.0ライセンスの下でモデルウェイトをリリースしています。
関連論文リスト
- Real-Time Streamable Generative Speech Restoration with Flow Matching [35.33575179870606]
Stream$.$FMは、32ミリ秒(ms)のアルゴリズム待ち時間と48ミリ秒の総待ち時間を持つフレーム因果フローベースの生成モデルである。
現在利用可能なGPUでは,高品質なストリーミング生成音声処理が実現可能であることを示す。
論文 参考訳(メタデータ) (2025-12-22T14:41:17Z) - VoXtream: Full-Stream Text-to-Speech with Extremely Low Latency [17.067283475630095]
本稿では,VoXtreamについて紹介する。VoXtreamは,最初の単語から始まるリアルタイム使用のための,完全自動回帰・ゼロショットストリーミングテキスト音声合成システムである。
VoXtreamは、モノトニックアライメントスキームと、オンセットを遅らせない動的ルックアヘッドを使用して、入ってくる音素を直接オーディオトークンにマッピングする。
インクリメンタルな音素変換器、意味的および持続的トークンを予測する時間変換器、音響トークンを生成する深さ変換器を中心に構築されたVoXtreamは、我々の知る限り、一般に利用可能なストリーミングTSの最低遅延である102msを達成している。
論文 参考訳(メタデータ) (2025-09-19T13:26:46Z) - CarelessWhisper: Turning Whisper into a Causal Streaming Model [31.38962687054824]
本稿では,エンコーダ・デコーダ変換器を低遅延ストリーミングモデルに変換することが簡単でない理由を説明する。
提案手法は,既存の(非因果的)エンコーダを,エンコーダとデコーダの両方を微調整することによって因果的エンコーダに修正する。
低レイテンシチャンクサイズ(300msec未満)の実験では、我々の微調整されたモデルが既存の非微調整のストリーミングアプローチより優れていることが示されている。
論文 参考訳(メタデータ) (2025-08-17T09:32:40Z) - Streaming Non-Autoregressive Model for Accent Conversion and Pronunciation Improvement [52.89324095217975]
本研究では,非ネイティブ音声を母語的アクセントに変換する最初のアクセント変換モデルを提案する。
提案手法は,従来のACアーキテクチャをEmformerエンコーダと最適化推論機構で変更することでストリーム処理を実現する。
論文 参考訳(メタデータ) (2025-06-19T20:05:29Z) - StreamMel: Real-Time Zero-shot Text-to-Speech via Interleaved Continuous Autoregressive Modeling [50.537794606598254]
StreamMelは、継続的メル-スペクトログラムをモデル化する、先駆的なシングルステージストリーミングTSフレームワークである。
高い話者類似性と自然性を保ちながら、低レイテンシで自己回帰的な合成を可能にする。
オフラインシステムに匹敵するパフォーマンスを実現し、効率的なリアルタイム生成もサポートしている。
論文 参考訳(メタデータ) (2025-06-14T16:53:39Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - End to End Lip Synchronization with a Temporal AutoEncoder [95.94432031144716]
ビデオ中の唇の動きをオーディオストリームと同期させる問題について検討する。
両領域再帰型ニューラルネットワークを用いて最適アライメントを求める。
アプリケーションとして、既存のビデオストリームとテキストから音声までの音声を強力にアライメントする能力を実証する。
論文 参考訳(メタデータ) (2022-03-30T12:00:18Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。