論文の概要: CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions
- arxiv url: http://arxiv.org/abs/2408.16589v1
- Date: Thu, 29 Aug 2024 14:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 13:23:15.061607
- Title: CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions
- Title(参考訳): CrisperWhisper: Verbatim音声文の正確なタイムスタンプ
- Authors: Laurin Wagner, Bernhard Thallinger, Mario Zusag,
- Abstract要約: より冗長な音声の書き起こしを生成するために、モデルを微調整する。
複数の話者に対する頑健さと背景雑音を高めるために,我々はいくつかの手法を採用している。
- 参考スコア(独自算出の注目度): 0.5120567378386615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate that carefully adjusting the tokenizer of the Whisper speech recognition model significantly improves the precision of word-level timestamps when applying dynamic time warping to the decoder's cross-attention scores. We fine-tune the model to produce more verbatim speech transcriptions and employ several techniques to increase robustness against multiple speakers and background noise. These adjustments achieve state-of-the-art performance on benchmarks for verbatim speech transcription, word segmentation, and the timed detection of filler events, and can further mitigate transcription hallucinations. The code is available open https://github.com/nyrahealth/CrisperWhisper.
- Abstract(参考訳): 我々は,Whisper音声認識モデルのトークン化を慎重に調整することで,デコーダのクロスアテンションスコアに動的時間ワープを適用する際の単語レベルのタイムスタンプの精度が大幅に向上することを示した。
我々は、より冗長な音声書き起こしを生成するためにモデルを微調整し、複数の話者に対するロバスト性や背景雑音を高めるためにいくつかの手法を用いる。
これらの調整は、動詞音声の書き起こし、単語のセグメンテーション、およびフィラーイベントのタイムド検出のためのベンチマークで最先端のパフォーマンスを達成し、さらに書き起こし幻覚を緩和することができる。
コードはhttps://github.com/nyrahealth/CrisperWhisper.comで公開されている。
関連論文リスト
- Continuous Speech Tokenizer in Text To Speech [27.057221389827735]
本稿では,連続音声トークンに基づく簡易かつ効果的な連続音声トークン化手法とテキスト音声合成モデルを提案する。
この結果から,連続音声認識を用いた音声モデルの方が連続性が高く,平均オピニオンスコア(MoS)が高いことがわかった。
この拡張は、周波数領域における低周波および高周波の両方にわたる連続音声認識器の情報保存率の向上に起因する。
論文 参考訳(メタデータ) (2024-10-22T15:02:37Z) - Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - DASB -- Discrete Audio and Speech Benchmark [12.02056212008393]
我々は、様々なタスクで離散オーディオトークンをベンチマークするためのリーダーボードである、離散オーディオおよび音声ベンチマーク(DASB)をリリースする。
その結果, 意味トークンは, 識別的, 生成的タスクにおいて, 圧縮トークンよりも優れていた。
しかし、セマンティックトークンと標準的な連続表現の間のパフォーマンスのギャップは依然として大きい。
論文 参考訳(メタデータ) (2024-06-20T13:23:27Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - Improving Isochronous Machine Translation with Target Factors and
Auxiliary Counters [71.02335065794384]
本稿では,目標言語音素列と連続した継続時間を予測するために,変圧器モデルに目標因子を導入する。
また,本モデルでは,従来よりも翻訳品質と等時性の向上が図られている。
論文 参考訳(メタデータ) (2023-05-22T16:36:04Z) - Duration-aware pause insertion using pre-trained language model for
multi-speaker text-to-speech [40.65850332919397]
事前訓練された言語モデルに基づいて,より強力な停止挿入フレームワークを提案する。
提案手法では,大規模テキストコーパス上で事前学習した変換器(BERT)の双方向エンコーダ表現を用いる。
また、より自然なマルチスピーカTSに対して、持続時間対応の停止挿入を利用する。
論文 参考訳(メタデータ) (2023-02-27T10:40:41Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Topic Model Robustness to Automatic Speech Recognition Errors in Podcast
Transcripts [4.526933031343007]
本研究では,音声認識エンジンが生成した転写文に適用した場合の潜在ディリクレ割当トピックモデルのロバスト性について検討する。
まず,自動文字起こしによる話題埋め込みとポッドキャスト作成者によるポッドキャスト記述のコサイン類似度スコアのベースラインを観察する。
そして、転写ノイズの増加に伴ってコサインの類似度が減少する様子を観察し、自動音声認識文字が誤りである場合でも、その転写から高品質なトピック埋め込みを得ることができると結論づける。
論文 参考訳(メタデータ) (2021-09-25T07:59:31Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Attentional Speech Recognition Models Misbehave on Out-of-domain
Utterances [16.639133822656458]
我々は、LibriSpeechコーパスのみで訓練された注目エンコーダデコーダモデルを用いて、British National Corpusからオーディオをデコードする。
我々は,500文字以上の復号出力を生成する5秒録音が多数存在することを観察した。
同じデータに基づいてトレーニングされたフレーム同期ハイブリッド(DNN-HMM)モデルは、これらの異常に長い書き起こしを生成しない。
論文 参考訳(メタデータ) (2020-02-12T18:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。