論文の概要: Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics
- arxiv url: http://arxiv.org/abs/2306.03444v1
- Date: Tue, 6 Jun 2023 06:49:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 16:53:04.802191
- Title: Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics
- Title(参考訳): 読解診断における読解精度の自動評価
- Authors: Bo Molenaar, Cristian Tejedor-Garcia, Helmer Strik, Catia Cucchiarini
- Abstract要約: Kaldi と Whisper を用いて,オランダ語読解精度を自動評価するための6つの最先端 ASR システムの評価を行った。
その結果、我々の最も成功したシステムは人的評価と実質的な合意に達した。
- 参考スコア(独自算出の注目度): 9.168525887419388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic assessment of reading fluency using automatic speech recognition
(ASR) holds great potential for early detection of reading difficulties and
subsequent timely intervention. Precise assessment tools are required,
especially for languages other than English. In this study, we evaluate six
state-of-the-art ASR-based systems for automatically assessing Dutch oral
reading accuracy using Kaldi and Whisper. Results show our most successful
system reached substantial agreement with human evaluations (MCC = .63). The
same system reached the highest correlation between forced decoding confidence
scores and word correctness (r = .45). This system's language model (LM)
consisted of manual orthographic transcriptions and reading prompts of the test
data, which shows that including reading errors in the LM improves assessment
performance. We discuss the implications for developing automatic assessment
systems and identify possible avenues of future research.
- Abstract(参考訳): 自動音声認識(asr)による読解変動の自動評価は,読解障害の早期検出とその後の時間的介入に大いに寄与する。
特に英語以外の言語では、正確な評価ツールが必要である。
本研究では,オランダ語読み上げ精度をKaldiとWhisperを用いて自動評価するための6つの最先端ASRシステムの評価を行った。
その結果,最も成功したシステムは人的評価(MCC=.63。
同じシステムは強制復号自信スコアと単語の正確性(r = .45)の最も高い相関に達した。
このシステムの言語モデル(LM)は、手動の書写とテストデータの読み出しプロンプトで構成されており、LMの読み出しエラーを含むと評価性能が向上することを示している。
自動評価システムの開発における意義と今後の研究の道筋について考察する。
関連論文リスト
- Spoken Grammar Assessment Using LLM [10.761744330206065]
音声言語評価システム(SLA: Spoken Language Assessment)は, 話者の発音と口頭流速を分析し, 読み上げ音声と自発音声をそれぞれ分析する。
ほとんどのWLAシステムは、キュレートされた有限サイズの文データベースから一連の文を表示し、テスト質問を予測し、自分自身を訓練することができる。
音声音声から言語文法を評価するための新しいエンドツーエンドSLAシステムを提案し、WLAシステムを冗長にする。
論文 参考訳(メタデータ) (2024-10-02T14:15:13Z) - Zero-shot Generative Large Language Models for Systematic Review
Screening Automation [55.403958106416574]
本研究では,ゼロショット大言語モデルを用いた自動スクリーニングの有効性について検討した。
本研究では, 8種類のLCMの有効性を評価し, 予め定義されたリコール閾値を用いた校正手法について検討する。
論文 参考訳(メタデータ) (2024-01-12T01:54:08Z) - Convergences and Divergences between Automatic Assessment and Human Evaluation: Insights from Comparing ChatGPT-Generated Translation and Neural Machine Translation [1.6982207802596105]
本研究では,自動計測と人的評価の収束と相違について検討する。
自動評価を行うには,DQF-MQMのエラータイプと6つのルーリックを人間の評価に組み込んだ4つの自動計測手法を用いる。
その結果、高度な翻訳ツールの性能を評価する上で、人間の判断が不可欠であることが示された。
論文 参考訳(メタデータ) (2024-01-10T14:20:33Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Exploring linguistic feature and model combination for speech
recognition based automatic AD detection [61.91708957996086]
音声ベースの自動ADスクリーニングシステムは、他の臨床スクリーニング技術に代わる非侵襲的でスケーラブルな代替手段を提供する。
専門的なデータの収集は、そのようなシステムを開発する際に、モデル選択と特徴学習の両方に不確実性をもたらす。
本稿では,BERT と Roberta の事前学習したテキストエンコーダのドメイン微調整の堅牢性向上のための特徴とモデルの組み合わせ手法について検討する。
論文 参考訳(メタデータ) (2022-06-28T05:09:01Z) - Automated Evaluation of Standardized Dementia Screening Tests [0.18472148461613155]
半標準化された歴史と2つの標準化された神経心理学的テストからなる研究について報告する。
テストには、名前オブジェクトや単語リストの学習といった基本的なタスクだけでなく、MMSEのような広く使われているツールも含まれている。
単語代替語を用いることで、認識誤りを軽減し、その後、専門家のスコアとの相関性を改善することが示される。
論文 参考訳(メタデータ) (2022-06-13T14:41:27Z) - Pushing the Right Buttons: Adversarial Evaluation of Quality Estimation [25.325624543852086]
本稿では,機械翻訳(MT)システムにおける品質推定の逆検定法を提案する。
近年のSOTAによる人的判断と高い相関があるにもかかわらず、ある種の意味エラーはQEが検出する上で問題である。
第二に、平均的に、あるモデルが意味保存と意味調整の摂動を区別する能力は、その全体的な性能を予測できることが示される。
論文 参考訳(メタデータ) (2021-09-22T17:32:18Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。