論文の概要: Systematic Evaluation of Machine-Generated Reasoning and PHQ-9 Labeling for Depression Detection Using Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17119v1
- Date: Wed, 21 May 2025 16:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.582609
- Title: Systematic Evaluation of Machine-Generated Reasoning and PHQ-9 Labeling for Depression Detection Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた抑うつ検出のための機械生成推論とPHQ-9ラベルの体系的評価
- Authors: Zongru Shao, Xin Wang, Zhanyang Liu, Chenhan Wang, K. P. Subbalakshmi,
- Abstract要約: うつ病のような初期のメンタルヘルス検出のための大規模言語モデル(LLM)は、しばしば機械生成データによって最適化される。
本稿では,機械による検出と解釈に対する推論を体系的に評価する。
次に、モデルの推論能力を使用して、パフォーマンスを向上させるための緩和戦略を探索します。
- 参考スコア(独自算出の注目度): 5.426680341952808
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research leverages large language models (LLMs) for early mental health detection, such as depression, often optimized with machine-generated data. However, their detection may be subject to unknown weaknesses. Meanwhile, quality control has not been applied to these generated corpora besides limited human verifications. Our goal is to systematically evaluate LLM reasoning and reveal potential weaknesses. To this end, we first provide a systematic evaluation of the reasoning over machine-generated detection and interpretation. Then we use the models' reasoning abilities to explore mitigation strategies for enhanced performance. Specifically, we do the following: A. Design an LLM instruction strategy that allows for systematic analysis of the detection by breaking down the task into several subtasks. B. Design contrastive few-shot and chain-of-thought prompts by selecting typical positive and negative examples of detection reasoning. C. Perform human annotation for the subtasks identified in the first step and evaluate the performance. D. Identify human-preferred detection with desired logical reasoning from the few-shot generation and use them to explore different optimization strategies. We conducted extensive comparisons on the DepTweet dataset across the following subtasks: 1. identifying whether the speaker is describing their own depression; 2. accurately detecting the presence of PHQ-9 symptoms, and 3. finally, detecting depression. Human verification of statistical outliers shows that LLMs demonstrate greater accuracy in analyzing and detecting explicit language of depression as opposed to implicit expressions of depression. Two optimization methods are used for performance enhancement and reduction of the statistic bias: supervised fine-tuning (SFT) and direct preference optimization (DPO). Notably, the DPO approach achieves significant performance improvement.
- Abstract(参考訳): 近年の研究では、うつ病のような初期のメンタルヘルス検出に大規模な言語モデル(LLM)を活用し、しばしば機械生成データに最適化されている。
しかし、その検出には未知の弱点が伴う可能性がある。
一方、これらの生成したコーパスには、人間による検証が限定されている以外、品質管理が適用されていない。
我々の目標は、LLM推論を体系的に評価し、潜在的な弱点を明らかにすることである。
この目的のために,我々はまず,機械による検出と解釈よりも,推論を体系的に評価する。
次に、モデルの推論能力を使用して、性能向上のための緩和戦略を探索する。
A.タスクを複数のサブタスクに分割することで,検出の系統的解析を可能にするLLM命令戦略を設計する。
B. 検出推論の典型的な正の例と負の例を選択することで, ほとんどショットやチェーン・オブ・思想のプロンプトを対照的に設計する。
C.最初のステップで特定されたサブタスクに対する人間のアノテーションを実行し、その性能を評価する。
D. 数世代から所望の論理的推論で人間優先の検出を識別し、異なる最適化戦略を探索する。
以下のサブタスクでDepTweetデータセットの広範な比較を行った。
1 話者が自分の抑うつを表現しているかを識別すること。
2.PHQ-9の症状の有無を正確に検出し、
3 最後に うつ病を検知。
統計的外れ値の人間による検証は、LLMがうつ病の暗黙の表現とは対照的に、うつ病の明示的な言語を分析し、検出する際の精度が高いことを示している。
教師付き微調整(SFT)と直接選好最適化(DPO)の2つの最適化手法を用いて、統計バイアスの性能向上と低減を行う。
特に、DPOアプローチは、大幅なパフォーマンス改善を実現しています。
関連論文リスト
- AGIR: Assessing 3D Gait Impairment with Reasoning based on LLMs [0.0]
歩行障害は、神経変性疾患の早期診断、疾患モニタリング、治療評価において重要な役割を果たす。
近年のディープラーニングベースのアプローチは、分類精度を一貫して改善しているが、解釈可能性に欠けることが多い。
本稿では、事前訓練されたVQ-VAEモーショントークンライザと、一対のモーショントークン上で微調整されたLarge Language Model(LLM)からなる新しいパイプラインであるAGIRを紹介する。
論文 参考訳(メタデータ) (2025-03-23T17:12:16Z) - Generating Medically-Informed Explanations for Depression Detection using LLMs [1.325953054381901]
ソーシャルメディアデータからうつ病を早期に検出することは、タイムリーな介入の貴重な機会となる。
本稿では,LLM-MTD(Large Language Model for Multi-Task Depression Detection)を提案する。
論文 参考訳(メタデータ) (2025-03-18T19:23:22Z) - Dementia Insights: A Context-Based MultiModal Approach [0.3749861135832073]
早期発見は、病気の進行を遅らせる可能性のあるタイムリーな介入に不可欠である。
テキストと音声のための大規模事前学習モデル(LPM)は、認知障害の識別において有望であることを示している。
本研究は,テキストデータと音声データを最高の性能のLPMを用いて統合する,コンテキストベースのマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T06:46:26Z) - Enhancing Depression Detection with Chain-of-Thought Prompting: From Emotion to Reasoning Using Large Language Models [9.43184936918456]
うつ病は世界中で障害の主な原因の1つである。
大規模言語モデルの最近の進歩は、精神的な健康問題に対処する上で有望であることを示している。
そこで本研究では,抑うつ検出の性能と解釈性を両立するChain-of-Thought Prompting手法を提案する。
論文 参考訳(メタデータ) (2025-02-09T12:30:57Z) - A BERT-Based Summarization approach for depression detection [1.7363112470483526]
うつ病は世界中で流行する精神疾患であり、対処されないと深刻な反感を引き起こす可能性がある。
機械学習と人工知能は、さまざまなデータソースからのうつ病指標を自律的に検出することができる。
本研究では,入力テキストの長さと複雑さを低減させる前処理手法として,テキスト要約を提案する。
論文 参考訳(メタデータ) (2024-09-13T02:14:34Z) - Resultant: Incremental Effectiveness on Likelihood for Unsupervised Out-of-Distribution Detection [63.93728560200819]
unsupervised out-of-distribution (U-OOD) は、未表示のin-distriion(ID)データのみに基づいて訓練された検出器でデータサンプルを識別することである。
近年の研究は、DGMに基づく様々な検出器を開発し、可能性を超えて移動している。
本研究では,各方向,特にポストホック前とデータセットエントロピー・ミューチュアルキャリブレーションの2つの手法を適用した。
実験の結果、結果が新しい最先端のU-OOD検出器になる可能性が示された。
論文 参考訳(メタデータ) (2024-09-05T02:58:13Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。