論文の概要: Adaptive Language-based Mental Health Assessment with Item-Response
Theory
- arxiv url: http://arxiv.org/abs/2311.06467v1
- Date: Sat, 11 Nov 2023 03:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 18:36:09.947274
- Title: Adaptive Language-based Mental Health Assessment with Item-Response
Theory
- Title(参考訳): 項目応答理論を用いた適応言語に基づくメンタルヘルス評価
- Authors: Vasudha Varadarajan, Sverker Sikstr\"om, Oscar N.E. Kjell and H.
Andrew Schwartz
- Abstract要約: 適応型言語に基づく評価(Adaptive Language-based Assessment)は,モデルが問うべき質問に対する限られた言語応答に基づいて,個人の心理的スコアを反復的に推定するタスクである。
適応テストは一般に高い妥当性を達成するのに必要な質問の数を大幅に削減できることがわかった。
どちらのモデルもランダムな順序付けや固定順序付けよりも大幅に改善されているが、ALIRTはより少ない質問数で最高の精度を達成できるスケーラブルなモデルである。
- 参考スコア(独自算出の注目度): 7.801208784626191
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Mental health issues widely vary across individuals - the manifestations of
signs and symptoms can be fairly heterogeneous. Recently, language-based
depression and anxiety assessments have shown promise for capturing this
heterogeneous nature by evaluating a patient's own language, but such
approaches require a large sample of words per person to be accurate. In this
work, we introduce adaptive language-based assessment - the task of iteratively
estimating an individual's psychological score based on limited language
responses to questions that the model also decides to ask. To this end, we
explore two statistical learning-based approaches for measurement/scoring:
classical test theory (CTT) and item response theory (IRT). We find that using
adaptive testing in general can significantly reduce the number of questions
required to achieve high validity (r ~ 0.7) with standardized tests, bringing
down from 11 total questions down to 3 for depression and 5 for anxiety. Given
the combinatorial nature of the problem, we empirically evaluate multiple
strategies for both the ordering and scoring objectives, introducing two new
methods: a semi-supervised item response theory based method (ALIRT), and a
supervised actor-critic based model. While both of the models achieve
significant improvements over random and fixed orderings, we find ALIRT to be a
scalable model that achieves the highest accuracy with lower numbers of
questions (e.g. achieves Pearson r ~ 0.93 after only 3 questions versus asking
all 11 questions). Overall, ALIRT allows prompting a reduced number of
questions without compromising accuracy or overhead computational costs.
- Abstract(参考訳): メンタルヘルスの問題は個人によって大きく異なり、徴候や症状の症状はかなり異種である。
近年, 言語による抑うつと不安評価は, 患者自身の言語を評価することによって, この異質な性質を捉えることを約束している。
本研究では,適応的な言語に基づくアセスメントを導入する。モデルが問うべき質問に対する限定言語応答に基づいて,個人の心理的スコアを反復的に推定するタスクである。
そこで本研究では,古典的テスト理論 (CTT) と項目応答理論 (IRT) の2つの統計的学習に基づく計測・検査手法について検討する。
一般に適応テストを用いることで、標準テストで高い妥当性(r ~ 0.7)を達成するのに必要な質問数が大幅に減少し、11問から3問に低下し、5問に不安が生じた。
課題の組合せ的性質を考慮し,オーダリングとスコアリングの両目的に対する複数の戦略を実証的に評価し,半教師付き項目応答理論に基づく手法 (ALIRT) と教師付きアクタ批判に基づくモデルを導入する。
どちらのモデルもランダム順序と固定順序よりも大幅に改善されているが、alirtはより少ない質問数で最高精度を達成するスケーラブルなモデルである(例えば、pearson r ~ 0.93は3つの質問で達成されている)。
全体としてalirtは、精度や計算コストを損なうことなく、質問の数を減らすことができる。
関連論文リスト
- Adapting Mental Health Prediction Tasks for Cross-lingual Learning via Meta-Training and In-context Learning with Large Language Model [3.3590922002216193]
モデルに依存しないメタラーニングと,このギャップに対処するために大規模言語モデル(LLM)を活用する。
まず,自己超越型メタラーニングモデルを適用し,迅速な適応と言語間移動のためのモデル初期化を改良する。
並行して、LLMのインコンテキスト学習機能を用いて、スワヒリのメンタルヘルス予測タスクにおけるパフォーマンスの精度を評価する。
論文 参考訳(メタデータ) (2024-04-13T17:11:35Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Semantic Coherence Markers for the Early Diagnosis of the Alzheimer
Disease [0.0]
パープレキシティはもともと、与えられた言語モデルがテキストシーケンスを予測するのにどの程度適しているかを評価するための情報理論の尺度として考え出された。
我々は2グラムから5グラムまでのN-gramとトランスフォーマーベース言語モデルであるGPT-2を多種多様な言語モデルに適用した。
ベストパフォーマンスモデルでは、ADクラスと制御対象の両方から対象を分類する際に、完全精度とFスコア(精度/特異度とリコール/感度のそれぞれ1.00)を達成した。
論文 参考訳(メタデータ) (2023-02-02T11:40:16Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - Q-Pain: A Question Answering Dataset to Measure Social Bias in Pain
Management [5.044336341666555]
痛み管理の文脈におけるQAのバイアスを評価するためのデータセットであるQ-Painを紹介する。
本稿では, 治療決定の際に生じる潜在的なバイアスを測定するための, 実験設計のサンプルを含む, 厳密な新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T21:55:28Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。