論文の概要: Mental-LLM: Leveraging Large Language Models for Mental Health
Prediction via Online Text Data
- arxiv url: http://arxiv.org/abs/2307.14385v3
- Date: Sat, 16 Sep 2023 00:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 22:57:15.822795
- Title: Mental-LLM: Leveraging Large Language Models for Mental Health
Prediction via Online Text Data
- Title(参考訳): mental-llm:オンラインテキストデータによるメンタルヘルス予測のための大規模言語モデル活用
- Authors: Xuhai Xu, Bingsheng Yao, Yuanzhe Dong, Saadia Gabriel, Hong Yu, James
Hendler, Marzyeh Ghassemi, Anind K. Dey, Dakuo Wang
- Abstract要約: オンラインテキストデータを用いて,様々なメンタルヘルス予測タスクにおける多言語モデル(LLM)の総合評価を行った。
その結果、ゼロショットプロンプト、少数ショットプロンプト、命令微調整によるLLMの有望な性能が示された。
我々の最も精巧なモデルであるMental-AlpacaとMental-FLAN-T5は、バランスの取れた精度でGPT-3.5を10.9%上回り、GPT-4(250倍、150倍)を4.8%上回りました。
- 参考スコア(独自算出の注目度): 42.965788205842465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in large language models (LLMs) have empowered a variety of
applications. However, there is still a significant gap in research when it
comes to understanding and enhancing the capabilities of LLMs in the field of
mental health. In this work, we present the first comprehensive evaluation of
multiple LLMs, including Alpaca, Alpaca-LoRA, FLAN-T5, GPT-3.5, and GPT-4, on
various mental health prediction tasks via online text data. We conduct a broad
range of experiments, covering zero-shot prompting, few-shot prompting, and
instruction fine-tuning. The results indicate a promising yet limited
performance of LLMs with zero-shot and few-shot prompt designs for the mental
health tasks. More importantly, our experiments show that instruction
finetuning can significantly boost the performance of LLMs for all tasks
simultaneously. Our best-finetuned models, Mental-Alpaca and Mental-FLAN-T5,
outperform the best prompt design of GPT-3.5 (25 and 15 times bigger) by 10.9%
on balanced accuracy and the best of GPT-4 (250 and 150 times bigger) by 4.8%.
They further perform on par with the state-of-the-art task-specific language
model. We also conduct an exploratory case study on LLMs' capability on the
mental health reasoning tasks, illustrating the promising capability of certain
models such as GPT-4. We summarize our findings into a set of action guidelines
for potential methods to enhance LLMs' capability for mental health tasks.
Meanwhile, we also emphasize the important limitations before achieving
deployability in real-world mental health settings, such as known racial and
gender bias. We highlight the important ethical risks accompanying this line of
research.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、様々なアプリケーションに力を与えてきた。
しかし、精神保健分野におけるLSMの能力の理解と向上に関して、研究には依然として大きなギャップがある。
本研究は,アルパカ,アルパカ-ロラ,FLAN-T5,GPT-3.5,GPT-4を含む複数のLSMの様々なメンタルヘルス予測タスクにおけるオンラインテキストデータによる総合的な評価である。
我々は、ゼロショットプロンプト、少数ショットプロンプト、命令微調整など幅広い実験を行っている。
その結果、ゼロショットと数ショットのプロンプトを持つLSMの有望かつ限定的なパフォーマンスが、メンタルヘルスタスクのために設計されていることが示唆された。
さらに重要なことは、命令の微調整が全てのタスクに対するLLMの性能を同時に向上させることを示すことである。
当社の「メンタル・アルパカ」と「メンタル・フラン・t5」は、gpt-3.5(25倍と15倍)のベストプロンプトデザインを10.9%上回り、gpt-4(250倍と150倍)のベストを4.8%上回った。
彼らはまた、最先端のタスク特化言語モデルと同等に機能する。
また,llmsのメンタルヘルス推論能力に関する探索的なケーススタディを実施し,gpt-4などのモデルが有望であることを示す。
本研究は,精神保健業務におけるLCMの能力を高めるための行動ガイドラインのセットにまとめる。
また、人種的偏見や性別的偏見など、現実世界のメンタルヘルス設定において、デプロイ可能性を達成する前に重要な制限を強調します。
この研究に付随する重要な倫理的リスクを強調します。
関連論文リスト
- Is your LLM trapped in a Mental Set? Investigative study on how mental sets affect the reasoning capabilities of LLMs [8.920202114368843]
本稿では,心的セットがLLMの推論能力に与える影響について検討する。
メンタル・セット(Mental Sets)とは、以前成功していた戦略が非効率になったとしても継続する傾向を指す。
Llama-3.1-8B-インストラクト、Llama-3.1-70B-インストラクト、GPT-4oのようなメンタルセットの存在下でのLLMモデルの性能を比較した。
論文 参考訳(メタデータ) (2025-01-21T02:29:15Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - MentalGLM Series: Explainable Large Language Models for Mental Health Analysis on Chinese Social Media [31.752563319585196]
ブラックボックスモデルはタスクを切り替えるときに柔軟性がなく、その結果は説明に欠ける。
大きな言語モデル(LLM)の台頭とともに、その柔軟性はこの分野に新しいアプローチを導入した。
本稿では,9Kサンプルからなる中国初のマルチタスク・ソーシャル・メディア解釈型メンタルヘルス・インストラクション・データセットを提案する。
また,中国ソーシャルメディアをターゲットとしたメンタルヘルス分析を目的とした,初のオープンソースLCMであるMentalGLMシリーズモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T09:29:27Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Evaluating the Effectiveness of the Foundational Models for Q&A Classification in Mental Health care [0.18416014644193068]
プレトレーニング言語モデル(PLM)は、メンタルヘルスを変革する可能性がある。
本研究は,精神保健領域における質問紙と回答紙の分類におけるPLMの有効性を評価するものである。
論文 参考訳(メタデータ) (2024-06-23T00:11:07Z) - A Novel Nuanced Conversation Evaluation Framework for Large Language Models in Mental Health [42.711913023646915]
大規模言語モデル(LLM)のニュアンス会話能力を評価するための新しい枠組みを提案する。
そこで我々は,心理療法の会話分析文献を用いた文献から開発された,一連の定量的指標を開発した。
GPTモデルやLlamaモデルを含むいくつかの人気のあるフロンティアLCMを、検証されたメンタルヘルスデータセットを通じて評価するために、当社のフレームワークを使用します。
論文 参考訳(メタデータ) (2024-03-08T23:46:37Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Towards Interpretable Mental Health Analysis with Large Language Models [27.776003210275608]
大規模言語モデル(LLM)のメンタルヘルス分析と感情的推論能力は,5つのタスクにまたがる11のデータセット上で評価した。
本研究は, 精神保健分析のためのLCMについて, それぞれの意思決定に関する説明を提示するように指示することで, 解釈可能な精神保健分析を行う。
得られた説明の質を評価するために、厳密な人的評価を伝達し、163の人的評価による新しいデータセットを作成する。
論文 参考訳(メタデータ) (2023-04-06T19:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。