論文の概要: K-Function: Joint Pronunciation Transcription and Feedback for Evaluating Kids Language Function
- arxiv url: http://arxiv.org/abs/2507.03043v1
- Date: Thu, 03 Jul 2025 08:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.553671
- Title: K-Function: Joint Pronunciation Transcription and Feedback for Evaluating Kids Language Function
- Title(参考訳): K-Function: 子どもの言語機能評価のための共同発音転写とフィードバック
- Authors: Shuhe Li, Chenxu Guo, Jiachen Lian, Cheol Jun Cho, Wenshuo Zhao, Xuanru Zhou, Dingkun Zhou, Sam Wang, Grace Wang, Jingze Yang, Jingyi Xu, Ruohan Bao, Elise Brenner, Brandon In, Francesca Pei, Maria Luisa Gorno-Tempini, Gopala Anumanchipalli,
- Abstract要約: K-Functionは、正確なサブワードの書き起こし、客観的スコアリング、動作可能なフィードバックを組み合わせた統合フレームワークである。
Kids-WFSTはMySTで1.39%、Multitudesで8.61%の音素誤りを達成した。
- 参考スコア(独自算出の注目度): 10.918072285423706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Early evaluation of children's language is frustrated by the high pitch, long phones, and sparse data that derail automatic speech recognisers. We introduce K-Function, a unified framework that combines accurate sub-word transcription, objective scoring, and actionable feedback. Its core, Kids-WFST, merges a Wav2Vec2 phoneme encoder with a phoneme-similarity Dysfluent-WFST to capture child-specific errors while remaining fully interpretable. Kids-WFST attains 1.39% phoneme error on MyST and 8.61% on Multitudes--absolute gains of 10.47 and 7.06 points over a greedy-search decoder. These high-fidelity transcripts power an LLM that grades verbal skills, milestones, reading, and comprehension, aligning with human proctors and supplying tongue-and-lip visualizations plus targeted advice. The results show that precise phoneme recognition cements a complete diagnostic-feedback loop, paving the way for scalable, clinician-ready language assessment.
- Abstract(参考訳): 幼児の言語を早期に評価するには, 音声認識を損なう高ピッチ, 長電話, スパースデータに不満がある。
K-Functionは、正確なサブワードの書き起こし、客観的スコアリング、動作可能なフィードバックを組み合わせた統合フレームワークである。
コアとなるKids-WFSTは、Wav2Vec2の音素エンコーダと音素類似性Dysfluent-WFSTを融合して、完全に解釈可能ながら、子供固有のエラーをキャプチャする。
Kids-WFSTはMySTで1.39%、Multitudesで8.61%の音素誤りを達成した。
これらの高忠実な書き起こしは、言語スキル、マイルストーン、読書、理解を格付けし、人間のプロクターと整合し、舌と唇の可視化と目標とするアドバイスを提供するLLMに力を与える。
その結果、正確な音素認識は完全な診断フィードバックループを具現化し、スケーラブルでクリニアン対応の言語アセスメントの道を開いた。
関連論文リスト
- Improving Child Speech Recognition and Reading Mistake Detection by Using Prompts [10.137389745562512]
オランダ語読み上げ音声における最先端の音声認識性能を達成した。
これにより読み誤りの検出が大幅に改善され、F1スコアは0.39から0.73に増加した。
論文 参考訳(メタデータ) (2025-06-04T05:55:12Z) - Automated evaluation of children's speech fluency for low-resource languages [8.918459083715149]
本稿では,微調整された多言語ASRモデルと客観的なメトリクス抽出段階を組み合わせることで,流速を自動的に評価するシステムを提案する。
提案システムは,タミル語とマレー語という2つの低リソース言語を用いて,子どもの発話のデータセットに基づいて評価する。
論文 参考訳(メタデータ) (2025-05-26T08:25:50Z) - Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study [59.30098850050971]
この研究は、8つの非英語言語にわたるLLMのプロンプトに基づく検出を評価する。
実世界の評価セットのほとんどにおいて、ゼロショットと少数ショットが微調整エンコーダモデルに遅れを生じさせる一方で、ヘイトスピーチ検出のための関数的テストのより優れた一般化を実現していることを示す。
論文 参考訳(メタデータ) (2025-05-09T16:00:01Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - An Approach to Mispronunciation Detection and Diagnosis with Acoustic,
Phonetic and Linguistic (APL) Embeddings [18.282632348274756]
大量の単語レベルのアノテーションで訓練されたASRモデルから抽出された音声埋め込みは、入力音声の内容のよい表現として機能する。
我々は,より強力なMD&Dシステムを構築するために,音響,音声,言語 (APL) の埋め込み機能を併用することを提案する。
論文 参考訳(メタデータ) (2021-10-14T11:25:02Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。