論文の概要: PARCO: Phoneme-Augmented Robust Contextual ASR via Contrastive Entity Disambiguation
- arxiv url: http://arxiv.org/abs/2509.04357v1
- Date: Thu, 04 Sep 2025 16:18:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.217811
- Title: PARCO: Phoneme-Augmented Robust Contextual ASR via Contrastive Entity Disambiguation
- Title(参考訳): PARCO:Contrastive Entity Disambiguationによる音素拡張ロバスト文脈ASR
- Authors: Jiajun He, Naoki Sawada, Koichi Miyazaki, Tomoki Toda,
- Abstract要約: 我々はPhonme-Augmented Robust Contextual ASR(Phonme-Augmented Robust Contextual ASR)を提案する。
PARCOは、音素認識符号化、コントラストエンティティ曖昧化、エンティティレベルの監視、階層エンティティフィルタリングを統合している。
実験の結果、PARCOは中国のAISHELL-1で4.22%、WERで11.14%のCERを達成した。
- 参考スコア(独自算出の注目度): 35.774826781541385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) systems struggle with domain-specific named entities, especially homophones. Contextual ASR improves recognition but often fails to capture fine-grained phoneme variations due to limited entity diversity. Moreover, prior methods treat entities as independent tokens, leading to incomplete multi-token biasing. To address these issues, we propose Phoneme-Augmented Robust Contextual ASR via COntrastive entity disambiguation (PARCO), which integrates phoneme-aware encoding, contrastive entity disambiguation, entity-level supervision, and hierarchical entity filtering. These components enhance phonetic discrimination, ensure complete entity retrieval, and reduce false positives under uncertainty. Experiments show that PARCO achieves CER of 4.22% on Chinese AISHELL-1 and WER of 11.14% on English DATA2 under 1,000 distractors, significantly outperforming baselines. PARCO also demonstrates robust gains on out-of-domain datasets like THCHS-30 and LibriSpeech.
- Abstract(参考訳): 自動音声認識(ASR)システムは、ドメイン固有の名前を持つエンティティ、特にホモフォンと競合する。
コンテキストASRは認識を改善するが、エンティティの多様性が制限されているため、しばしば微細な音素変化を捉えない。
さらに、事前の方法はエンティティを独立したトークンとして扱い、不完全なマルチトークンバイアスを引き起こす。
これらの問題に対処するために,音素認識エンコーディング,コントラスト的エンティティ曖昧化,エンティティレベルの監視,階層的エンティティフィルタリングを統合したPhoneme-Augmented Robust Contextual ASRを提案する。
これらの成分は音素識別を強化し、完全実体検索を保証し、不確実性の下で偽陽性を減らす。
実験の結果、PARCOは中国のAISHELL-1で4.22%、WERで11.14%、1000のイングリッシュ・データ2で11.14%、ベースラインではかなり優れていた。
PARCOはまた、THCHS-30やLibriSpeechといったドメイン外のデータセットに対して、堅牢なゲインを示す。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - DANCER: Entity Description Augmented Named Entity Corrector for Automatic Speech Recognition [10.844822448167935]
本稿では、自動音声認識(E2E ASR)における音声の混同を軽減するために、CorrEctoR(dubed DANCER)について述べる。
DANCERは、名前付きエンティティのAISHELL-1に対して、文字誤り率(CER)の約7%の削減により、強いベースラインである音声編集距離ベースNECモデル(PED-NEC)より優れている。
DANCERは、名前付きエンティティを含むHomophoneでテストすると、名前付きエンティティに対してPED-NECよりもCERが46%減少する。
論文 参考訳(メタデータ) (2024-03-26T12:27:32Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - CopyNE: Better Contextual ASR by Copying Named Entities [35.36208545538822]
我々は、NE辞書からエンティティをコピーできるCopyNEと呼ばれる体系的なメカニズムを設計する。
実験により、CopyNEは従来のアプローチと比較して、エンティティの翻訳精度を一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-05-22T09:03:11Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。