論文の概要: Automatic Scoring of Cognition Drawings: Assessing the Quality of
Machine-Based Scores Against a Gold Standard
- arxiv url: http://arxiv.org/abs/2312.16887v2
- Date: Fri, 29 Dec 2023 13:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 19:05:31.061364
- Title: Automatic Scoring of Cognition Drawings: Assessing the Quality of
Machine-Based Scores Against a Gold Standard
- Title(参考訳): 認知図面の自動描画:金標準に対する機械的スコアの品質評価
- Authors: Arne Bethmann, Marina Aoki, Charlotte Hunsicker, Claudia Weileder
- Abstract要約: 本稿では,初となる概念実証を報告し,深層学習を用いた自動スコアリングの実現可能性について評価する。
我々は、ドイツのSHAREパネルの第8波から約2000の描画を用いて、いくつかの異なる畳み込みニューラルネットワーク(CNN)モデルを訓練する。
最高のパフォーマンスモデルであるConvNeXt Baseは、約85%の精度を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Figure drawing is often used as part of dementia screening protocols. The
Survey of Health Aging and Retirement in Europe (SHARE) has adopted three
drawing tests from Addenbrooke's Cognitive Examination III as part of its
questionnaire module on cognition. While the drawings are usually scored by
trained clinicians, SHARE uses the face-to-face interviewers who conduct the
interviews to score the drawings during fieldwork. This may pose a risk to data
quality, as interviewers may be less consistent in their scoring and more
likely to make errors due to their lack of clinical training. This paper
therefore reports a first proof of concept and evaluates the feasibility of
automating scoring using deep learning. We train several different
convolutional neural network (CNN) models using about 2,000 drawings from the
8th wave of the SHARE panel in Germany and the corresponding interviewer
scores, as well as self-developed 'gold standard' scores. The results suggest
that this approach is indeed feasible. Compared to training on interviewer
scores, models trained on the gold standard data improve prediction accuracy by
about 10 percentage points. The best performing model, ConvNeXt Base, achieves
an accuracy of about 85%, which is 5 percentage points higher than the accuracy
of the interviewers. While this is a promising result, the models still
struggle to score partially correct drawings, which are also problematic for
interviewers. This suggests that more and better training data is needed to
achieve production-level prediction accuracy. We therefore discuss possible
next steps to improve the quality and quantity of training examples.
- Abstract(参考訳): 図面描画はしばしば認知症スクリーニングプロトコルの一部として使われる。
The Survey of Health Aging and Retirement in Europe (SHARE)は、認知に関する調査モジュールの一部として、Addenbrooke's Cognitive Examination IIIの3つの図面テストを採用した。
図面は通常訓練を受けた臨床医が採点するが、shareは面接を行う対面面接者を使ってフィールドワーク中に図面を採点する。
インタビュアーはスコアの一貫性が低く、臨床訓練の欠如によりエラーを起こしやすいため、これはデータ品質にリスクをもたらす可能性がある。
そこで本稿では,最初の概念実証を報告し,ディープラーニングを用いたスコアリングの自動化の可能性について評価する。
我々は,ドイツにおける第8波から約2,000枚の図面とそれに対応するインタビュアースコア,および自己開発した'ゴールドスタンダード'スコアを用いて,いくつかの異なる畳み込みニューラルネットワーク(cnn)モデルを訓練した。
結果は、このアプローチが実際に実現可能であることを示唆している。
インタビュアースコアのトレーニングと比較すると、ゴールド標準データに基づいてトレーニングされたモデルは、予測精度を約10ポイント向上する。
最高のパフォーマンスモデルであるconvnext baseは、約85%の精度を実現している。
これは有望な結果であるが、モデルはまだ部分的に正しい図面を得るのに苦労しており、これはインタビュアーにとっても問題となっている。
これは、プロダクションレベルの予測精度を達成するために、より優れたトレーニングデータが必要であることを示唆している。
したがって、トレーニング例の品質と量を改善するための次のステップについて議論する。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Improving Selective Visual Question Answering by Learning from Your
Peers [74.20167944693424]
VQA(Visual Question Answering)モデルは、間違っていた場合の回答を控えるのに苦労する可能性がある。
本稿では,複数モーダル選択関数の学習におけるLearning from Your Peers (LYP) アプローチを提案する。
提案手法では,学習データの異なるサブセットに基づいて訓練されたモデルの予測を,選択的VQAモデルの最適化のターゲットとして利用する。
論文 参考訳(メタデータ) (2023-06-14T21:22:01Z) - Language Models (Mostly) Know What They Know [10.836210010868932]
言語モデルが自身の主張の有効性を評価し,どの疑問に正しく答えられるかを予測する。
モデルが「P(IK)」を予測できるかどうか,質問に対する「私が知っている」確率を,特定の回答に言及せずに検討する。
論文 参考訳(メタデータ) (2022-07-11T22:59:39Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - What Can Secondary Predictions Tell Us? An Exploration on
Question-Answering with SQuAD-v2.0 [0.0]
我々は、例の黄金のランク(GR)を、根拠となる真実と正確に一致する最も自信のある予測のランクとして定義する。
我々が分析した16の変圧器モデルでは、第2の予測空間における正確に一致した黄金の答えの大部分は、最上位に非常に近い位置にある。
GRIM(Golden Rank Interpolated Median)と呼ばれる,テストセット全体の新しい集計統計を導出する。
論文 参考訳(メタデータ) (2022-06-29T01:17:47Z) - Calibrate Before Use: Improving Few-Shot Performance of Language Models [68.17016463756474]
GPT-3は、いくつかのトレーニング例を含む自然言語プロンプトを提供すると、多数のタスクを実行できます。
この種の少数ショット学習は不安定である。
プロンプト形式、トレーニング例、およびトレーニング例の順序の選択は、精度をほぼチャンスから最先端のものに変化させる可能性があります。
論文 参考訳(メタデータ) (2021-02-19T00:23:59Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Grading video interviews with fairness considerations [1.7403133838762446]
本稿では,質問に対するビデオ応答に基づいて,候補者の社会的スキルを自動的に導き出す手法を提案する。
社会的スキルを予測するための2つの機械学習モデルを開発した。
我々は、人種と性別によるモデルの誤りを研究することによって、公正さを分析する。
論文 参考訳(メタデータ) (2020-07-02T10:06:13Z) - Predicting trends in the quality of state-of-the-art neural networks
without access to training or testing data [46.63168507757103]
公開されている何百もの事前学習モデルの詳細なメタ分析を提供する。
パワーローベースのメトリクスは -- 訓練された一連のモデル間での識別が、定量的に優れていることが分かりました。
論文 参考訳(メタデータ) (2020-02-17T00:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。