Fugu-MT 論文翻訳(概要): Turning Whisper into Real-Time Transcription System

論文の概要: Turning Whisper into Real-Time Transcription System

arxiv url: http://arxiv.org/abs/2307.14743v2
Date: Thu, 21 Sep 2023 09:41:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-22 18:53:33.176332
Title: Turning Whisper into Real-Time Transcription System
Title（参考訳）: ウィスパーをリアルタイム転写システムに変える
Authors: Dominik Mach\'a\v{c}ek, Raj Dabre, Ond\v{r}ej Bojar
Abstract要約: Whisper-Streamingは、Whisperライクなモデルのリアルタイム音声の書き起こしと翻訳の実装である。本稿では,Whisper-Streamingが非分割長文音声書き起こしテストセットにおいて,高品質かつ3.3秒のレイテンシを実現することを示す。
参考スコア（独自算出の注目度）: 15.925481189003383
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Whisper is one of the recent state-of-the-art multilingual speech recognition and translation models, however, it is not designed for real time transcription. In this paper, we build on top of Whisper and create Whisper-Streaming, an implementation of real-time speech transcription and translation of Whisper-like models. Whisper-Streaming uses local agreement policy with self-adaptive latency to enable streaming transcription. We show that Whisper-Streaming achieves high quality and 3.3 seconds latency on unsegmented long-form speech transcription test set, and we demonstrate its robustness and practical usability as a component in live transcription service at a multilingual conference.
Abstract（参考訳）: Whisperは最新の多言語音声認識および翻訳モデルの一つであるが、リアルタイムの文字起こしには設計されていない。本稿では,実時間音声認識の実装であるwhisper-streamingを用いて,whisper-likeモデルの翻訳を行う。 Whisper-Streamingは、ローカル契約ポリシーとセルフアダプティブレイテンシを使って、ストリーミングの書き起こしを可能にする。そこで本研究では,不測の長文音声認識テストセットの画質と3.3秒のレイテンシを実現するとともに,そのロバスト性と実用的なユーザビリティを多言語会議において実証する。

関連論文リスト

Dub-S2ST: Textless Speech-to-Speech Translation for Seamless Dubbing [15.134076873312809]
言語間ダビングシステムは、継続時間、話者識別、発話速度といった重要な特徴を保ちながら、ある言語から別の言語に音声を翻訳する。本稿では,時間順変換が可能な時間長制御付き離散拡散に基づく音声-単位間翻訳モデルを提案する。次に,予測単位とソースの同一性に基づいて,条件付きフローマッチングモデルを用いて音声を合成する。
論文参考訳（メタデータ） (2025-05-27T08:43:28Z)
High-Fidelity Simultaneous Speech-To-Speech Translation [75.69884829562591]
本稿では,同時音声翻訳のためのデコーダのみのモデルであるHibikiを紹介する。 Hibikiは、マルチストリーム言語モデルを利用して、ソースとターゲットの音声を同期的に処理し、テキストとオーディオトークンを共同で生成し、音声からテキストへの変換と音声から音声への変換を行う。
論文参考訳（メタデータ） (2025-02-05T17:18:55Z)
Enhancing Whisper's Accuracy and Speed for Indian Languages through Prompt-Tuning and Tokenization [2.403252956256118]
本稿では,インドの言語におけるWhisperの多言語音声認識性能を高めるための2つの新しいアプローチについて検討する。まず,言語的に類似した言語におけるWhisperの精度を高めるために,言語家族情報を用いたプロンプトチューニングを提案する。第二に、生成したトークンの数を減らし、Whisperの推論速度を加速する新しいトークン化器を導入する。
論文参考訳（メタデータ） (2024-12-27T18:32:24Z)
CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions [0.5120567378386615]
より冗長な音声の書き起こしを生成するために、モデルを微調整する。複数の話者に対する頑健さと背景雑音を高めるために,我々はいくつかの手法を採用している。
論文参考訳（メタデータ） (2024-08-29T14:52:42Z)
Cross-Lingual Transfer Learning for Speech Translation [7.802021866251242]
本稿では,制限データを用いた音声基礎モデルの音声翻訳機能の拡張について検討する。 Whisperは、音声認識と英訳に強い性能を持つ音声基礎モデルであり、その例として用いられる。音声から音声への検索を用いて,エンコーダが生成した音声表現を分析し,異なる言語からの発話を共有意味空間にマッピングすることを示す。
論文参考訳（メタデータ） (2024-07-01T09:51:48Z)
Whispy: Adapting STT Whisper Models to Real-Time Environments [43.000853406349165]
Whispyは、Whisper事前訓練モデルにライブ機能を提供するシステムである。 Whispyはライブオーディオストリームを消費し、ハイレベルで一貫性のある音声書き起こしを生成する。本研究では,公開音声データセットの大規模リポジトリ上での性能評価を行う。
論文参考訳（メタデータ） (2024-05-06T13:55:39Z)
Seamless: Multilingual Expressive and Streaming Speech Translation [71.12826355107889]
本稿では,エンドツーエンドの表現型および多言語翻訳をストリーミング形式で実現するモデル群を紹介する。まず,多言語およびマルチモーダルのSeamlessM4Tモデル-SeamlessM4T v2の改良版をコントリビュートする。 SeamlessExpressiveとSeamlessStreamingの主なコンポーネントをまとめてSeamlessを作ります。
論文参考訳（メタデータ） (2023-12-08T17:18:42Z)
Leveraging Timestamp Information for Serialized Joint Streaming Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文参考訳（メタデータ） (2023-10-23T11:00:27Z)
DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文参考訳（メタデータ） (2023-09-14T19:33:27Z)
Jointly Optimizing Translations and Speech Timing to Improve Isochrony in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文参考訳（メタデータ） (2023-02-25T04:23:25Z)
Enabling Interactive Transcription in an Indigenous Community [23.53585157238112]
本稿では,音声語検出とHuman-in-the-loopを組み合わせた書き起こしワークフローを提案する。転写の初期段階において、堅牢なASRシステムのトレーニングに利用可能なデータが不十分である場合には、少数の孤立した単語の転写を利用することができる。
論文参考訳（メタデータ） (2020-11-12T04:41:35Z)
Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文参考訳（メタデータ） (2020-10-28T12:33:04Z)
Fluent and Low-latency Simultaneous Speech-to-Speech Translation with Self-adaptive Training [40.71155396456831]
音声から音声への同時翻訳は広く有用であるが,極めて困難である。ソース言語音声と並行してターゲット言語音声を生成する必要があるが、わずか数秒遅れている。現在のアプローチは、話者がより速く話すときの遅延を徐々に蓄積し、話者がゆっくり話すときの不自然な停止を導入する。そこで本稿では,翻訳の長さを柔軟に調整し,異なる音源の音声レートに対応する自己適応翻訳(SAT)を提案する。
論文参考訳（メタデータ） (2020-10-20T06:02:15Z)
Textual Supervision for Visually Grounded Spoken Language Understanding [51.93744335044475]
音声から意味情報を抽出する音声言語理解モデルこれは、書き起こしが高価または入手が不可能な低リソース言語に有用である。最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
論文参考訳（メタデータ） (2020-10-06T15:16:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。