論文の概要: Pitch Accent Detection improves Pretrained Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2508.04814v1
- Date: Wed, 06 Aug 2025 18:52:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.618028
- Title: Pitch Accent Detection improves Pretrained Automatic Speech Recognition
- Title(参考訳): ピッチアクセント検出による事前学習音声認識の改善
- Authors: David Sasu, Natalie Schluter,
- Abstract要約: 本モデルのピッチアクセント検出成分は,タスクの最先端性を大幅に向上させる。
ピッチアクセントのような重要な韻律的手がかりを維持または再学習するために、事前訓練された音声モデルを拡張することの重要性を示す。
- 参考スコア(独自算出の注目度): 2.5322020135765464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show the performance of Automatic Speech Recognition (ASR) systems that use semi-supervised speech representations can be boosted by a complimentary pitch accent detection module, by introducing a joint ASR and pitch accent detection model. The pitch accent detection component of our model achieves a significant improvement on the state-of-the-art for the task, closing the gap in F1-score by 41%. Additionally, the ASR performance in joint training decreases WER by 28.3% on LibriSpeech, under limited resource fine-tuning. With these results, we show the importance of extending pretrained speech models to retain or re-learn important prosodic cues such as pitch accent.
- Abstract(参考訳): 本稿では,半教師付き音声表現を用いた自動音声認識(ASR)システムの性能を,共用ピッチアクセント検出モジュールにより向上させることができることを示す。
本モデルのピッチアクセント検出成分は,F1スコアのギャップを41%縮めることにより,タスクの最先端性を大幅に向上させる。
加えて、共同訓練におけるASRの性能は、限られた資源の微調整の下で、WERを28.3%減少させる。
これらの結果から,ピッチアクセントのような重要な韻律的手がかりを維持あるいは再学習するために,事前学習した音声モデルを拡張することの重要性が示された。
関連論文リスト
- Seewo's Submission to MLC-SLM: Lessons learned from Speech Reasoning Language Models [4.917936997225074]
MLC-SLM(Multilingual Conversational Speech Language Model Challenge)の両トラック用システム
ASRのための音声モデルにおいて、推論と自己補正を明確に強化する多段階学習パイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-16T09:42:05Z) - Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。
本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。
実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-05-29T07:47:48Z) - Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Device Directedness with Contextual Cues for Spoken Dialog Systems [15.96415881820669]
本研究では,バージイン検証を,音声のみの情報を用いてユーザの音声対話を真偽のバージインに分類する教師付き学習タスクとして定義する。
下流分類タスクに自己教師付き表現学習モデルから低レベル音声表現を用いる。
プレトレーニング中に暗黙的に学習されたドメイン固有言語情報を改善するために,語彙情報を音声表現に直接注入する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-23T19:49:11Z) - Improved far-field speech recognition using Joint Variational
Autoencoder [5.320201231911981]
Denoising Autoencoder (DA) を用いた遠距離場から近距離空間への音声特徴のマッピングを提案する。
具体的には,単語誤り率(WER)の絶対的な改善は,DAに基づく拡張に比べて2.5%,遠距離フィルタバンクで直接訓練されたAMに比べて3.96%であった。
論文 参考訳(メタデータ) (2022-04-24T14:14:04Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。