論文の概要: Cognitive-Mental-LLM: Leveraging Reasoning in Large Language Models for Mental Health Prediction via Online Text
- arxiv url: http://arxiv.org/abs/2503.10095v1
- Date: Thu, 13 Mar 2025 06:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 21:36:22.558079
- Title: Cognitive-Mental-LLM: Leveraging Reasoning in Large Language Models for Mental Health Prediction via Online Text
- Title(参考訳): 認知・心-LLM:オンラインテキストによるメンタルヘルス予測のための大規模言語モデルにおける推論の活用
- Authors: Avinash Patil, Amardeep Kour Gedhu,
- Abstract要約: 本研究では,Reddit から得られた複数のメンタルヘルスデータセットの分類精度を向上させるため,構造化推論手法-Chain-of-Thought (CoT), Self-Consistency (SC-CoT), Tree-of-Thought (ToT) の評価を行った。
我々は,Zero-shot CoTやFew-shot CoTといった推論駆動型プロンプト戦略を,Ba balanced Accuracy,F1 score,Sensitivity/Specificityといった重要なパフォーマンス指標を用いて分析する。
以上の結果から,特に複雑な場合において,推論手法により直接予測よりも分類性能が向上することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated potential in predicting mental health outcomes from online text, yet traditional classification methods often lack interpretability and robustness. This study evaluates structured reasoning techniques-Chain-of-Thought (CoT), Self-Consistency (SC-CoT), and Tree-of-Thought (ToT)-to improve classification accuracy across multiple mental health datasets sourced from Reddit. We analyze reasoning-driven prompting strategies, including Zero-shot CoT and Few-shot CoT, using key performance metrics such as Balanced Accuracy, F1 score, and Sensitivity/Specificity. Our findings indicate that reasoning-enhanced techniques improve classification performance over direct prediction, particularly in complex cases. Compared to baselines such as Zero Shot non-CoT Prompting, and fine-tuned pre-trained transformers such as BERT and Mental-RoBerta, and fine-tuned Open Source LLMs such as Mental Alpaca and Mental-Flan-T5, reasoning-driven LLMs yield notable gains on datasets like Dreaddit (+0.52\% over M-LLM, +0.82\% over BERT) and SDCNL (+4.67\% over M-LLM, +2.17\% over BERT). However, performance declines in Depression Severity, and CSSRS predictions suggest dataset-specific limitations, likely due to our using a more extensive test set. Among prompting strategies, Few-shot CoT consistently outperforms others, reinforcing the effectiveness of reasoning-driven LLMs. Nonetheless, dataset variability highlights challenges in model reliability and interpretability. This study provides a comprehensive benchmark of reasoning-based LLM techniques for mental health text classification. It offers insights into their potential for scalable clinical applications while identifying key challenges for future improvements.
- Abstract(参考訳): 大規模言語モデル(LLM)は、オンラインテキストからメンタルヘルスの結果を予測する可能性を示しているが、伝統的な分類法は解釈可能性や堅牢性に欠けることが多い。
本研究では,Reddit から得られた複数のメンタルヘルスデータセットの分類精度を向上させるため,構造化推論手法-Chain-of-Thought (CoT), Self-Consistency (SC-CoT), Tree-of-Thought (ToT) の評価を行った。
我々は,Zero-shot CoTやFew-shot CoTといった推論駆動型プロンプト戦略を,Ba balanced Accuracy,F1 score,Sensitivity/Specificityといった重要なパフォーマンス指標を用いて分析する。
以上の結果から,特に複雑な場合において,推論手法により直接予測よりも分類性能が向上することが示唆された。
Zero Shot non-CoT Prompting や BERT や Mental-RoBerta のような微調整済みの事前学習トランスフォーマーや Mental Alpaca や Mental-Flan-T5 のような細調整のオープンソース LLM と比較すると、Dreaddit (+0.52\% over M-LLM, +0.82\% over BERT) や SDCNL (+4.67\% over M-LLM, +2.17\% over BERT) のようなデータセットで顕著な利得が得られる。
しかし、Depression Severityのパフォーマンス低下とCSSRSの予測は、おそらくより広範なテストセットを使用するため、データセット固有の制限を示唆している。
挑発的戦略の中で、Few-shot CoTは一貫して他より優れており、推論駆動型LLMの有効性を強化している。
それでもデータセットの多様性は、モデルの信頼性と解釈可能性における課題を浮き彫りにする。
本研究は、精神保健テキスト分類のための推論に基づくLCM手法の総合的なベンチマークを提供する。
将来的な改善の鍵となる課題を特定しながら、スケーラブルな臨床応用の可能性についての洞察を提供する。
関連論文リスト
- Leveraging Embedding Techniques in Multimodal Machine Learning for Mental Illness Assessment [0.8458496687170665]
うつ病やPTSDなどの精神疾患の世界的な流行は、客観的でスケーラブルな診断ツールを必要とする。
本稿では、テキスト、音声、ビデオデータに相補的な情報を活用することで、これらの課題に対処するためのマルチモーダル機械学習の可能性を検討する。
大規模言語モデル予測の新たな統合を含む,データレベル,機能レベル,意思決定レベルの融合技術について検討する。
論文 参考訳(メタデータ) (2025-04-02T14:19:06Z) - Detecting PTSD in Clinical Interviews: A Comparative Analysis of NLP Methods and Large Language Models [6.916082619621498]
外傷後ストレス障害 (PTSD) は, 臨床現場ではまだ診断されていない。
本研究では,臨床面接書からPTSDを検出するための自然言語処理手法について検討した。
論文 参考訳(メタデータ) (2025-04-01T22:06:28Z) - AGIR: Assessing 3D Gait Impairment with Reasoning based on LLMs [0.0]
歩行障害は、神経変性疾患の早期診断、疾患モニタリング、治療評価において重要な役割を果たす。
近年のディープラーニングベースのアプローチは、分類精度を一貫して改善しているが、解釈可能性に欠けることが多い。
本稿では、事前訓練されたVQ-VAEモーショントークンライザと、一対のモーショントークン上で微調整されたLarge Language Model(LLM)からなる新しいパイプラインであるAGIRを紹介する。
論文 参考訳(メタデータ) (2025-03-23T17:12:16Z) - Generating Medically-Informed Explanations for Depression Detection using LLMs [1.325953054381901]
ソーシャルメディアデータからうつ病を早期に検出することは、タイムリーな介入の貴重な機会となる。
本稿では,LLM-MTD(Large Language Model for Multi-Task Depression Detection)を提案する。
論文 参考訳(メタデータ) (2025-03-18T19:23:22Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Dementia Insights: A Context-Based MultiModal Approach [0.3749861135832073]
早期発見は、病気の進行を遅らせる可能性のあるタイムリーな介入に不可欠である。
テキストと音声のための大規模事前学習モデル(LPM)は、認知障害の識別において有望であることを示している。
本研究は,テキストデータと音声データを最高の性能のLPMを用いて統合する,コンテキストベースのマルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2025-03-03T06:46:26Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。