論文の概要: Turning Whisper into Real-Time Transcription System
- arxiv url: http://arxiv.org/abs/2307.14743v2
- Date: Thu, 21 Sep 2023 09:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 18:53:33.176332
- Title: Turning Whisper into Real-Time Transcription System
- Title(参考訳): ウィスパーをリアルタイム転写システムに変える
- Authors: Dominik Mach\'a\v{c}ek, Raj Dabre, Ond\v{r}ej Bojar
- Abstract要約: Whisper-Streamingは、Whisperライクなモデルのリアルタイム音声の書き起こしと翻訳の実装である。
本稿では,Whisper-Streamingが非分割長文音声書き起こしテストセットにおいて,高品質かつ3.3秒のレイテンシを実現することを示す。
- 参考スコア(独自算出の注目度): 15.925481189003383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whisper is one of the recent state-of-the-art multilingual speech recognition
and translation models, however, it is not designed for real time
transcription. In this paper, we build on top of Whisper and create
Whisper-Streaming, an implementation of real-time speech transcription and
translation of Whisper-like models. Whisper-Streaming uses local agreement
policy with self-adaptive latency to enable streaming transcription. We show
that Whisper-Streaming achieves high quality and 3.3 seconds latency on
unsegmented long-form speech transcription test set, and we demonstrate its
robustness and practical usability as a component in live transcription service
at a multilingual conference.
- Abstract(参考訳): Whisperは最新の多言語音声認識および翻訳モデルの一つであるが、リアルタイムの文字起こしには設計されていない。
本稿では,実時間音声認識の実装であるwhisper-streamingを用いて,whisper-likeモデルの翻訳を行う。
Whisper-Streamingは、ローカル契約ポリシーとセルフアダプティブレイテンシを使って、ストリーミングの書き起こしを可能にする。
そこで本研究では,不測の長文音声認識テストセットの画質と3.3秒のレイテンシを実現するとともに,そのロバスト性と実用的なユーザビリティを多言語会議において実証する。
関連論文リスト
- High-Fidelity Simultaneous Speech-To-Speech Translation [75.69884829562591]
本稿では,同時音声翻訳のためのデコーダのみのモデルであるHibikiを紹介する。
Hibikiは、マルチストリーム言語モデルを利用して、ソースとターゲットの音声を同期的に処理し、テキストとオーディオトークンを共同で生成し、音声からテキストへの変換と音声から音声への変換を行う。
論文 参考訳(メタデータ) (2025-02-05T17:18:55Z) - Enhancing Whisper's Accuracy and Speed for Indian Languages through Prompt-Tuning and Tokenization [2.403252956256118]
本稿では,インドの言語におけるWhisperの多言語音声認識性能を高めるための2つの新しいアプローチについて検討する。
まず,言語的に類似した言語におけるWhisperの精度を高めるために,言語家族情報を用いたプロンプトチューニングを提案する。
第二に、生成したトークンの数を減らし、Whisperの推論速度を加速する新しいトークン化器を導入する。
論文 参考訳(メタデータ) (2024-12-27T18:32:24Z) - CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions [0.5120567378386615]
より冗長な音声の書き起こしを生成するために、モデルを微調整する。
複数の話者に対する頑健さと背景雑音を高めるために,我々はいくつかの手法を採用している。
論文 参考訳(メタデータ) (2024-08-29T14:52:42Z) - Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - Whispy: Adapting STT Whisper Models to Real-Time Environments [43.000853406349165]
Whispyは、Whisper事前訓練モデルにライブ機能を提供するシステムである。
Whispyはライブオーディオストリームを消費し、ハイレベルで一貫性のある音声書き起こしを生成する。
本研究では,公開音声データセットの大規模リポジトリ上での性能評価を行う。
論文 参考訳(メタデータ) (2024-05-06T13:55:39Z) - Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - Textual Supervision for Visually Grounded Spoken Language Understanding [51.93744335044475]
音声から意味情報を抽出する音声言語理解モデル
これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。
最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
論文 参考訳(メタデータ) (2020-10-06T15:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。