論文の概要: Turning Whisper into Real-Time Transcription System
- arxiv url: http://arxiv.org/abs/2307.14743v2
- Date: Thu, 21 Sep 2023 09:41:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 18:53:33.176332
- Title: Turning Whisper into Real-Time Transcription System
- Title(参考訳): ウィスパーをリアルタイム転写システムに変える
- Authors: Dominik Mach\'a\v{c}ek, Raj Dabre, Ond\v{r}ej Bojar
- Abstract要約: Whisper-Streamingは、Whisperライクなモデルのリアルタイム音声の書き起こしと翻訳の実装である。
本稿では,Whisper-Streamingが非分割長文音声書き起こしテストセットにおいて,高品質かつ3.3秒のレイテンシを実現することを示す。
- 参考スコア(独自算出の注目度): 15.925481189003383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whisper is one of the recent state-of-the-art multilingual speech recognition
and translation models, however, it is not designed for real time
transcription. In this paper, we build on top of Whisper and create
Whisper-Streaming, an implementation of real-time speech transcription and
translation of Whisper-like models. Whisper-Streaming uses local agreement
policy with self-adaptive latency to enable streaming transcription. We show
that Whisper-Streaming achieves high quality and 3.3 seconds latency on
unsegmented long-form speech transcription test set, and we demonstrate its
robustness and practical usability as a component in live transcription service
at a multilingual conference.
- Abstract(参考訳): Whisperは最新の多言語音声認識および翻訳モデルの一つであるが、リアルタイムの文字起こしには設計されていない。
本稿では,実時間音声認識の実装であるwhisper-streamingを用いて,whisper-likeモデルの翻訳を行う。
Whisper-Streamingは、ローカル契約ポリシーとセルフアダプティブレイテンシを使って、ストリーミングの書き起こしを可能にする。
そこで本研究では,不測の長文音声認識テストセットの画質と3.3秒のレイテンシを実現するとともに,そのロバスト性と実用的なユーザビリティを多言語会議において実証する。
関連論文リスト
- CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions [0.5120567378386615]
より冗長な音声の書き起こしを生成するために、モデルを微調整する。
複数の話者に対する頑健さと背景雑音を高めるために,我々はいくつかの手法を採用している。
論文 参考訳(メタデータ) (2024-08-29T14:52:42Z) - Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。
Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。
音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文 参考訳(メタデータ) (2024-07-01T09:51:48Z) - Whispy: Adapting STT Whisper Models to Real-Time Environments [43.000853406349165]
Whispyは、Whisper事前訓練モデルにライブ機能を提供するシステムである。
Whispyはライブオーディオストリームを消費し、ハイレベルで一貫性のある音声書き起こしを生成する。
本研究では,公開音声データセットの大規模リポジトリ上での性能評価を行う。
論文 参考訳(メタデータ) (2024-05-06T13:55:39Z) - Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。
まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。
SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文 参考訳(メタデータ) (2023-12-08T17:18:42Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - Enabling Interactive Transcription in an Indigenous Community [23.53585157238112]
本稿では,音声語検出とHuman-in-the-loopを組み合わせた書き起こしワークフローを提案する。
転写の初期段階において、堅牢なASRシステムのトレーニングに利用可能なデータが不十分である場合には、少数の孤立した単語の転写を利用することができる。
論文 参考訳(メタデータ) (2020-11-12T04:41:35Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Fluent and Low-latency Simultaneous Speech-to-Speech Translation with
Self-adaptive Training [40.71155396456831]
音声から音声への同時翻訳は広く有用であるが,極めて困難である。
ソース言語音声と並行してターゲット言語音声を生成する必要があるが、わずか数秒遅れている。
現在のアプローチは、話者がより速く話すときの遅延を徐々に蓄積し、話者がゆっくり話すときの不自然な停止を導入する。
そこで本稿では,翻訳の長さを柔軟に調整し,異なる音源の音声レートに対応する自己適応翻訳(SAT)を提案する。
論文 参考訳(メタデータ) (2020-10-20T06:02:15Z) - Textual Supervision for Visually Grounded Spoken Language Understanding [51.93744335044475]
音声から意味情報を抽出する音声言語理解モデル
これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。
最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
論文 参考訳(メタデータ) (2020-10-06T15:16:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。