論文の概要: Multi-task Pretraining for Enhancing Interpretable L2 Pronunciation Assessment
- arxiv url: http://arxiv.org/abs/2509.16876v1
- Date: Sun, 21 Sep 2025 02:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.017169
- Title: Multi-task Pretraining for Enhancing Interpretable L2 Pronunciation Assessment
- Title(参考訳): 解釈可能なL2発音評価のためのマルチタスク事前訓練
- Authors: Jiun-Ting Li, Bi-Cheng Yan, Yi-Cheng Wang, Berlin Chen,
- Abstract要約: 自動発音評価(APA)は,第2言語(L2)学習者の音声をきめ細かい発音フィードバックによって分析する。
APAに対する既存の取り組みの多くは、通常、入力としてセグメントレベルの特徴を採用し、異なる粒度の発音スコアを予測する。
APAのためのMTP(Multi-task Pretraining)を導入する。
- 参考スコア(独自算出の注目度): 21.12585023191302
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic pronunciation assessment (APA) analyzes second-language (L2) learners' speech by providing fine-grained pronunciation feedback at various linguistic levels. Most existing efforts on APA typically adopt segmental-level features as inputs and predict pronunciation scores at different granularities via hierarchical (or parallel) pronunciation modeling. This, however, inevitably causes assessments across linguistic levels (e.g., phone, word, and utterance) to rely solely on phoneme-level pronunciation features, nearly sidelining supra-segmental pronunciation cues. To address this limitation, we introduce multi-task pretraining (MTP) for APA, a simple yet effective strategy that attempts to capture long-term temporal pronunciation cues while strengthening the intrinsic structures within an utterance via the objective of reconstructing input features. Specifically, for a phoneme-level encoder of an APA model, the proposed MTP strategy randomly masks segmental-level pronunciation features and reconstructs the masked ones based on their surrounding pronunciation context. Furthermore, current APA systems lack integration with automated speaking assessment (ASA), limiting holistic proficiency evaluation. Drawing on empirical studies and prior knowledge in ASA, our framework bridges this gap by incorporating handcrafted features (HCFs), such as fluency (speech rate, silence duration) and stress (pitch accent strength), derived from human-designed formulas via regressors to generate interpretable proficiency scores. Experiments on speechocean762 show improved pronunciation scoring and ASA proficiency correlation, enabling targeted training and comprehensive proficiency assessment.
- Abstract(参考訳): 自動発音評価(APA)は, 様々な言語レベルにおいて, きめ細かい発音フィードバックを提供することで, 第二言語(L2)学習者の発話を解析する。
APAに対する既存の取り組みの多くは、通常、入力としてセグメントレベルの特徴を採用し、階層的(または平行な)発音モデリングによって異なる粒度の発音スコアを予測する。
しかし、これは必然的に言語レベルの評価(例えば、電話、単語、発話)を音素レベルの発音にのみ依存させる。
この制限に対処するために,APAのマルチタスク事前訓練(MTP)を導入する。これは,入力特徴の再構成を目的とし,発話中の固有構造を強化しつつ,長時間の発音の手がかりを捉えようとする,シンプルかつ効果的な戦略である。
具体的には、APAモデルの音素レベルエンコーダに対して、提案したMPP戦略は、セグメントレベルの発音特徴をランダムにマスキングし、周囲の発音コンテキストに基づいてマスクされたものを再構成する。
さらに、現在のAPAシステムでは、自動発話評価(ASA)との統合が欠如しており、総合的熟練度評価が制限されている。
実験的な研究とASAにおける事前知識に基づいて,我々のフレームワークは,人間設計式から抽出した,流速(発声率,沈黙時間)やストレス(ピッチアクセント強度)などの手作り特徴(HCF)を組み込んで,解釈可能な習熟度スコアを生成することにより,このギャップを埋める。
speechocean762の実験では、発音評価とASA習熟度相関が改善し、目標訓練と総合習熟度評価が可能となった。
関連論文リスト
- Session-Level Spoken Language Assessment with a Multimodal Foundation Model via Multi-Target Learning [8.717610965852037]
音声言語アセスメント(SLA)は、学習者の発話能力を自然発話から推定する。
本稿では,セッションレベル評価を単一パスで行う,新しいマルチモーダル基礎モデルを提案する。
論文 参考訳(メタデータ) (2025-09-19T14:33:05Z) - Towards Inclusive Communication: A Unified LLM-Based Framework for Sign Language, Lip Movements, and Audio Understanding [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Segmentation-free Goodness of Pronunciation [8.859671910259244]
Mispronunciation Detection and diagnosis (MDD) は、現代のコンピュータ支援言語学習(CALL)システムにおいて重要な部分である。
ほとんどのシステムは発音の良さ(GOP)の形式に基づいている。
本研究ではまず,MCD に CTC 学習型 ASR モデルを適用可能な自己アライメント GOP (GOP-SA) を提案する。
次に、ターゲット音素のすべてのアライメントを考慮に入れた、より一般的なアライメントのない手法を定義する(GOP-AF)。
論文 参考訳(メタデータ) (2025-07-18T04:00:58Z) - Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。
本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。
推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文 参考訳(メタデータ) (2025-06-11T14:36:26Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Hierarchical Pronunciation Assessment with Multi-Aspect Attention [3.6825890616838066]
マルチアスペクト注意(HiPAMA)モデルを用いた階層的発音評価を提案する。
HiPAMAは言語構造を直接捉えるための粒度レベルを階層的に表現し、多視点の注意を喚起する。
実験結果の顕著な改善は,HiPAMAの堅牢性を示している。
論文 参考訳(メタデータ) (2022-11-15T12:49:35Z) - Prompting Language Models for Linguistic Structure [73.11488464916668]
本稿では,言語構造予測タスクに対する構造化プロンプト手法を提案する。
提案手法は, 音声タグ付け, 名前付きエンティティ認識, 文チャンキングについて評価する。
PLMはタスクラベルの事前知識を事前学習コーパスに漏えいすることで有意な事前知識を含むが、構造化プロンプトは任意のラベルで言語構造を復元することも可能である。
論文 参考訳(メタデータ) (2022-11-15T01:13:39Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。