論文の概要: Automated Evaluation of Standardized Dementia Screening Tests
- arxiv url: http://arxiv.org/abs/2206.06208v1
- Date: Mon, 13 Jun 2022 14:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 17:03:29.597951
- Title: Automated Evaluation of Standardized Dementia Screening Tests
- Title(参考訳): 標準認知症スクリーニングテストの自動化評価
- Authors: Franziska Braun, Markus F\"orstel, Bastian Oppermann, Andreas
Erzigkeit, Thomas Hillemacher, Hartmut Lehfeld, Korbinian Riedhammer
- Abstract要約: 半標準化された歴史と2つの標準化された神経心理学的テストからなる研究について報告する。
テストには、名前オブジェクトや単語リストの学習といった基本的なタスクだけでなく、MMSEのような広く使われているツールも含まれている。
単語代替語を用いることで、認識誤りを軽減し、その後、専門家のスコアとの相関性を改善することが示される。
- 参考スコア(独自算出の注目度): 0.18472148461613155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For dementia screening and monitoring, standardized tests play a key role in
clinical routine since they aim at minimizing subjectivity by measuring
performance on a variety of cognitive tasks. In this paper, we report on a
study that consists of a semi-standardized history taking followed by two
standardized neuropsychological tests, namely the SKT and the CERAD-NB. The
tests include basic tasks such as naming objects, learning word lists, but also
widely used tools such as the MMSE. Most of the tasks are performed verbally
and should thus be suitable for automated scoring based on transcripts. For the
first batch of 30 patients, we analyze the correlation between expert manual
evaluations and automatic evaluations based on manual and automatic
transcriptions. For both SKT and CERAD-NB, we observe high to perfect
correlations using manual transcripts; for certain tasks with lower
correlation, the automatic scoring is stricter than the human reference since
it is limited to the audio. Using automatic transcriptions, correlations drop
as expected and are related to recognition accuracy; however, we still observe
high correlations of up to 0.98 (SKT) and 0.85 (CERAD-NB). We show that using
word alternatives helps to mitigate recognition errors and subsequently
improves correlation with expert scores.
- Abstract(参考訳): 認知症スクリーニングとモニタリングのためには、様々な認知タスクのパフォーマンスを測定することで主観性を最小化することを目的としており、標準化されたテストが臨床ルーチンにおいて重要な役割を果たす。
本稿では,SKTとCERAD-NBの2つの標準化された神経心理学的テストに続き,半標準化された歴史からなる研究について報告する。
テストには、名前オブジェクトや単語リストの学習といった基本的なタスクだけでなく、MMSEのような広く使われているツールも含まれている。
ほとんどのタスクは音声で実行されるので、書き起こしに基づく自動スコアリングに適している。
第1回では,手作業による手作業による評価と手作業による自動評価の相関について検討した。
sktとcerad-nbの両方において,手書きの書き起こしを用いて,高い相関度から完全相関度を観測し,相関度の低いタスクでは,音声に制限されるため,自動スコアリングは人間の基準よりも厳格である。
自動転写を用いると、相関は期待通りに低下し、認識精度に関係するが、高い相関は最大0.98(SKT)と0.85(CERAD-NB)である。
単語の代替は認識誤りの軽減に役立ち、専門家のスコアとの相関性が向上することを示す。
関連論文リスト
- Beyond correlation: The impact of human uncertainty in measuring the effectiveness of automatic evaluation and LLM-as-a-judge [51.93909886542317]
本稿では,人間の行動と自動評価方法の相違点を,単一の集合相関スコアが明らかにする方法について述べる。
本研究では,評価性能のより堅牢な解析を行うために,ラベルの不確実性による階層化結果を提案する。
論文 参考訳(メタデータ) (2024-10-03T03:08:29Z) - Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics [9.168525887419388]
Kaldi と Whisper を用いて,オランダ語読解精度を自動評価するための6つの最先端 ASR システムの評価を行った。
その結果、我々の最も成功したシステムは人的評価と実質的な合意に達した。
論文 参考訳(メタデータ) (2023-06-06T06:49:58Z) - An Investigation of Evaluation Metrics for Automated Medical Note
Generation [5.094623170336122]
医療談話から臨床メモの自動生成のための評価方法と指標について検討した。
自動計測値と手動判定値の相関性を検討するために,システムと参照事実を比較して,自動メモ・要約の評価を行った。
論文 参考訳(メタデータ) (2023-05-27T04:34:58Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - TRScore: A Novel GPT-based Readability Scorer for ASR Segmentation and
Punctuation model evaluation and selection [1.4720080476520687]
自動音声認識における読みやすさの鍵は、触覚と可読性である。
人間の評価は高価で時間がかかり、サーバ間の大きな変動に悩まされる。
本稿では,GPTモデルを用いた新しい可読性尺度 TRScore について述べる。
論文 参考訳(メタデータ) (2022-10-27T01:11:32Z) - Going Beyond the Cookie Theft Picture Test: Detecting Cognitive
Impairments using Acoustic Features [0.18472148461613155]
標準化されたテストの音響的特徴は、認知障害者と非障害者とを確実に識別するために有効であることを示す。
インタビューのランダムな音声サンプルから抽出した特徴でさえ、認知障害の識別要因であることを示す。
論文 参考訳(メタデータ) (2022-06-10T12:04:22Z) - Re-Examining System-Level Correlations of Automatic Summarization
Evaluation Metrics [64.81682222169113]
システムレベルの相関により, 要約品質の人的判断を再現する自動要約評価指標を確実に定量化する。
システムレベルの相関の定義が、実際にシステムを評価するためにメトリクスがどのように使われているかと矛盾する2つの方法を特定する。
論文 参考訳(メタデータ) (2022-04-21T15:52:14Z) - Human Evaluation and Correlation with Automatic Metrics in Consultation
Note Generation [56.25869366777579]
近年,機械学習モデルによる臨床相談ノートの作成が急速に進んでいる。
5人の臨床医が57件のモック・コンサルテーションを聴き、自作のノートを書き、自動的に生成されたノートを編集し、全てのエラーを抽出する、広範囲にわたる人的評価研究を行った。
単純な文字ベースのLevenshtein距離測定は、BertScoreのような一般的なモデルベースの測定値に比較して、同等に動作します。
論文 参考訳(メタデータ) (2022-04-01T14:04:16Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。