論文の概要: Acoustically Precise Hesitation Tagging Is Essential for End-to-End Verbatim Transcription Systems
- arxiv url: http://arxiv.org/abs/2506.04076v1
- Date: Wed, 04 Jun 2025 15:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.423465
- Title: Acoustically Precise Hesitation Tagging Is Essential for End-to-End Verbatim Transcription Systems
- Title(参考訳): エンディング・トゥ・エンド・エンディング・バーバティム・転写システムにとって音響的高精度なヘシテーション・タギングは必須である
- Authors: Jhen-Ke Lin, Hao-Chien Lu, Chung-Chun Wang, Hong-Yun Lin, Berlin Chen,
- Abstract要約: 低ランク適応(LoRA)を用いたSpeak & Improve 2025コーパス上のWhisperモデルを微調整する
チャレンジ後の実験では、微調整のWhisper Large V3 Turboと"Extra"のスキームが5.5% WERとなった。
このことは、明示的でリアルなフルポーズラベリングが、動詞L2音声の書き起こしにおけるASRの精度を大幅に向上させることを示している。
- 参考スコア(独自算出の注目度): 3.505838221203969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Verbatim transcription for automatic speaking assessment demands accurate capture of disfluencies, crucial for downstream tasks like error analysis and feedback. However, many ASR systems discard or generalize hesitations, losing important acoustic details. We fine-tune Whisper models on the Speak & Improve 2025 corpus using low-rank adaptation (LoRA), without recourse to external audio training data. We compare three annotation schemes: removing hesitations (Pure), generic tags (Rich), and acoustically precise fillers inferred by Gemini 2.0 Flash from existing audio-transcript pairs (Extra). Our challenge system achieved 6.47% WER (Pure) and 5.81% WER (Extra). Post-challenge experiments reveal that fine-tuning Whisper Large V3 Turbo with the "Extra" scheme yielded a 5.5% WER, an 11.3% relative improvement over the "Pure" scheme (6.2% WER). This demonstrates that explicit, realistic filled-pause labeling significantly enhances ASR accuracy for verbatim L2 speech transcription.
- Abstract(参考訳): 自動発話評価のための動詞の書き起こしは、エラー分析やフィードバックといった下流のタスクに不可欠である、正確な不一致のキャプチャを要求する。
しかし、多くのASRシステムはヒューズを破棄または一般化し、重要な音響的詳細を失う。
低ランク適応(LoRA)を用いたSpeak & Improve 2025コーパス上のWhisperモデルを外部オーディオトレーニングデータに関連付けることなく微調整する。
本稿では,既存の音声書き起こしペア (Extra) からGemini 2.0 Flash が推定した,ヘスレーション (Pure) の除去,ジェネリックタグ (Rich) ,音響的精度の高いフィラーの3つのアノテーションスキームを比較した。
我々の挑戦システムは6.47%のWER(Pure)と5.81%のWER(Extra)を達成した。
チャレンジ後の実験では、微調整のWhisper Large V3 Turboが"Extra"方式で5.5% WERとなり、"Pure"方式よりも11.3%改善した(6.2% WER)。
このことは、明示的でリアルなフルポーズラベリングが、動詞L2音声の書き起こしにおけるASRの精度を大幅に向上させることを示している。
関連論文リスト
- Speech-FT: Merging Pre-trained And Fine-Tuned Speech Representation Models For Cross-Task Generalization [51.56024241398741]
微調整された音声表現モデルは、特定のタスクのパフォーマンスを向上させることができるが、しばしばタスク間の一般化能力を損なう。
微調整中の重量変化の規則化のような既存のアプローチは、事前訓練されたモデルと十分に高い特徴的類似性を維持できない可能性がある。
本研究では,2段階のファインチューニングフレームワークであるSpeech-FTを提案する。
論文 参考訳(メタデータ) (2025-02-18T09:23:42Z) - End-to-End Transformer-based Automatic Speech Recognition for Northern Kurdish: A Pioneering Approach [1.3689715712707342]
本稿では、中東で話されている低リソース言語である北クルド語(クルマンジ語)に対する事前訓練されたASRモデルであるWhisperの有効性について検討する。
約68時間の検証データを含む北クルド語微調整音声コーパスを用いて,追加のモジュール微調整戦略がASR精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-19T11:46:30Z) - Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation [0.0]
進歩への重要な障壁は、大きな注釈付き不適切な音声データセットの不足である。
本稿では,標準音声における自己教師型学習を応用した包括的ASR設計手法を提案する。
結果から,比較的小さなラベル付きデータセットによる微調整wav2vec 2.0とデータ拡張による単語誤り率の低減効果が示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:56:40Z) - Acoustic-to-articulatory Inversion based on Speech Decomposition and
Auxiliary Feature [7.363994037183394]
我々は、音声分解ネットワークを事前訓練し、音声を話者埋め込みとコンテンツ埋め込みに分解する。
次に、パーソナライズされた音声特徴から唇補助特徴を推定する新しい補助特徴ネットワークを提案する。
実験結果から,提案手法は,音声特徴のみを用いた最先端の手法と比較して平均RMSEを0.25削減し,平均相関係数を2.0%向上させることがわかった。
論文 参考訳(メタデータ) (2022-04-02T14:47:19Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。