論文の概要: Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Based Approach
- arxiv url: http://arxiv.org/abs/2511.20107v1
- Date: Tue, 25 Nov 2025 09:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.384987
- Title: Mispronunciation Detection and Diagnosis Without Model Training: A Retrieval-Based Approach
- Title(参考訳): モデルトレーニングを伴わない誤認識検出と診断:検索に基づくアプローチ
- Authors: Huu Tuong Tu, Ha Viet Khanh, Tran Tien Dat, Vu Huan, Thien Van Luong, Nguyen Tien Cuong, Nguyen Thi Thu Trang,
- Abstract要約: 本研究では,事前訓練された音声認識モデルを用いた検索手法を活用した学習自由フレームワークを提案する。
本手法は,発音誤りの正確な検出と診断を達成しつつ,音素固有モデリングやタスク固有訓練を回避している。
- 参考スコア(独自算出の注目度): 4.676867532704908
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Mispronunciation Detection and Diagnosis (MDD) is crucial for language learning and speech therapy. Unlike conventional methods that require scoring models or training phoneme-level models, we propose a novel training-free framework that leverages retrieval techniques with a pretrained Automatic Speech Recognition model. Our method avoids phoneme-specific modeling or additional task-specific training, while still achieving accurate detection and diagnosis of pronunciation errors. Experiments on the L2-ARCTIC dataset show that our method achieves a superior F1 score of 69.60% while avoiding the complexity of model training.
- Abstract(参考訳): 誤認識検出・診断(MDD)は言語学習と音声治療に不可欠である。
スコアリングモデルや音素レベルモデルの訓練を必要とする従来の手法とは異なり、事前訓練された音声認識モデルを用いた検索手法を活用する新しい学習自由フレームワークを提案する。
本手法は,発音誤りの正確な検出と診断を達成しつつ,音素固有モデリングやタスク固有訓練を回避している。
L2-ARCTICデータセットを用いた実験により,モデル学習の複雑さを回避しつつ,F1スコアの69.60%を達成できた。
関連論文リスト
- Pronunciation-Lexicon Free Training for Phoneme-based Crosslingual ASR via Joint Stochastic Approximation [12.39451124683428]
本稿では,音素を離散潜在変数として扱う潜在変数モデルに基づく手法を提案する。
多言語事前学習S2Pモデルに基づいて,ポーランド語とインドネシア語でクロスリンガル実験を行った。
10分間しか音素の監督を行ない、新しい手法であるJSA-SPGは5%の誤り率の低減を実現した。
論文 参考訳(メタデータ) (2025-07-04T12:23:22Z) - Zero-Shot Cognitive Impairment Detection from Speech Using AudioLLM [9.84961079811343]
音声は、認知低下を評価するための非侵襲的で容易に収集可能なバイオマーカーとして注目されている。
従来の認知障害検出法は、音声から抽出された音響的特徴と言語的特徴に基づいて訓練された教師付きモデルに依存している。
音声入力とテキスト入力の両方を処理可能なモデルであるQwen2- Audio AudioLLMを用いた,最初のゼロショット音声ベースのCI検出手法を提案する。
論文 参考訳(メタデータ) (2025-06-20T01:28:43Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Seq2seq for Automatic Paraphasia Detection in Aphasic Speech [14.686874756530322]
失語症は失語症の特徴である発話誤りであり、病気の重症度やサブタイプを評価する上で重要な信号である。
伝統的に、臨床医は言語サンプルの翻訳と分析によってパラファシアを手動で識別する。
本稿では,ASRと失語症検出の両方を行うために,エンドツーエンド(E2E)を訓練した新しいシーケンス・ツー・シーケンス(seq2seq)モデルを提案する。
論文 参考訳(メタデータ) (2023-12-16T18:22:37Z) - Phonological Level wav2vec2-based Mispronunciation Detection and
Diagnosis Method [11.069975459609829]
音声特徴量検出に基づく低レベルの誤認識検出と診断(MDD)手法を提案する。
提案手法は,母国語からの英語学習者から収集したL2音声コーパスに適用した。
論文 参考訳(メタデータ) (2023-11-13T02:41:41Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - Multi-Modal Detection of Alzheimer's Disease from Speech and Text [3.702631194466718]
本稿では,アルツハイマー病(AD)の診断に音声と対応する文字を同時に利用する深層学習手法を提案する。
提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。
論文 参考訳(メタデータ) (2020-11-30T21:18:17Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。