論文の概要: Mental-LLM: Leveraging Large Language Models for Mental Health
Prediction via Online Text Data
- arxiv url: http://arxiv.org/abs/2307.14385v2
- Date: Wed, 16 Aug 2023 06:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 16:22:19.839321
- Title: Mental-LLM: Leveraging Large Language Models for Mental Health
Prediction via Online Text Data
- Title(参考訳): mental-llm:オンラインテキストデータによるメンタルヘルス予測のための大規模言語モデル活用
- Authors: Xuhai Xu, Bingshen Yao, Yuanzhe Dong, Saadia Gabriel, Hong Yu, James
Hendler, Marzyeh Ghassemi, Anind K. Dey, Dakuo Wang
- Abstract要約: オンラインテキストデータを用いて,様々なメンタルヘルス予測タスクにおける多言語モデル(LLM)の総合評価を行った。
その結果、ゼロショットプロンプト、少数ショットプロンプト、命令微調整によるLLMの有望な性能が示された。
我々の最も精巧なモデルであるMental-AlpacaとMental-FLAN-T5は、バランスの取れた精度でGPT-3.5を10.9%上回り、GPT-4(250倍、150倍)を4.8%上回りました。
- 参考スコア(独自算出の注目度): 38.94436960093115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in large language models (LLMs) have empowered a variety of
applications. However, there is still a significant gap in research when it
comes to understanding and enhancing the capabilities of LLMs in the field of
mental health. In this work, we present the first comprehensive evaluation of
multiple LLMs, including Alpaca, Alpaca-LoRA, FLAN-T5, GPT-3.5, and GPT-4, on
various mental health prediction tasks via online text data. We conduct a broad
range of experiments, covering zero-shot prompting, few-shot prompting, and
instruction fine-tuning. The results indicate a promising yet limited
performance of LLMs with zero-shot and few-shot prompt designs for the mental
health tasks. More importantly, our experiments show that instruction
finetuning can significantly boost the performance of LLMs for all tasks
simultaneously. Our best-finetuned models, Mental-Alpaca and Mental-FLAN-T5,
outperform the best prompt design of GPT-3.5 (25 and 15 times bigger) by 10.9%
on balanced accuracy and the best of GPT-4 (250 and 150 times bigger) by 4.8%.
They further perform on par with the state-of-the-art task-specific language
model. We also conduct an exploratory case study on LLMs' capability on the
mental health reasoning tasks, illustrating the promising capability of certain
models such as GPT-4. We summarize our findings into a set of action guidelines
for potential methods to enhance LLMs' capability for mental health tasks.
Meanwhile, we also emphasize the important limitations before achieving
deployability in real-world mental health settings, such as known racial and
gender bias. We highlight the important ethical risks accompanying this line of
research.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、様々なアプリケーションに力を与えてきた。
しかし、精神保健分野におけるLSMの能力の理解と向上に関して、研究には依然として大きなギャップがある。
本研究は,アルパカ,アルパカ-ロラ,FLAN-T5,GPT-3.5,GPT-4を含む複数のLSMの様々なメンタルヘルス予測タスクにおけるオンラインテキストデータによる総合的な評価である。
我々は、ゼロショットプロンプト、少数ショットプロンプト、命令微調整など幅広い実験を行っている。
その結果、ゼロショットと数ショットのプロンプトを持つLSMの有望かつ限定的なパフォーマンスが、メンタルヘルスタスクのために設計されていることが示唆された。
さらに重要なことは、命令の微調整が全てのタスクに対するLLMの性能を同時に向上させることを示すことである。
当社の「メンタル・アルパカ」と「メンタル・フラン・t5」は、gpt-3.5(25倍と15倍)のベストプロンプトデザインを10.9%上回り、gpt-4(250倍と150倍)のベストを4.8%上回った。
彼らはまた、最先端のタスク特化言語モデルと同等に機能する。
また,llmsのメンタルヘルス推論能力に関する探索的なケーススタディを実施し,gpt-4などのモデルが有望であることを示す。
本研究は,精神保健業務におけるLCMの能力を高めるための行動ガイドラインのセットにまとめる。
また、人種的偏見や性別的偏見など、現実世界のメンタルヘルス設定において、デプロイ可能性を達成する前に重要な制限を強調します。
この研究に付随する重要な倫理的リスクを強調します。
関連論文リスト
- Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - PsyEval: A Comprehensive Large Language Model Evaluation Benchmark for
Mental Health [42.34080498780955]
メンタルヘルス領域の特徴に合わせた,最初の総合的なベンチマークを紹介する。
このベンチマークは、合計6つのサブタスクを含み、3次元をカバーする。
我々は,ベンチマークを用いて,合計8つの高度なLCMを総合的に評価した。
論文 参考訳(メタデータ) (2023-11-15T18:32:27Z) - Language Models Hallucinate, but May Excel at Fact Verification [95.57276329141618]
大規模言語モデル(LLM)はしばしば「ハロシン化(hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - Metacognitive Prompting Improves Understanding in Large Language Models [14.30980373935713]
メタ認知プロンプト(MP)は,人間の内省的推論プロセスにインスパイアされた戦略である。
MPを用いて、LLMは構造化された自己認識評価の体系的なシリーズを実行する。
MPは、標準とチェーンのプロンプトを含む既存のプロンプトメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2023-08-10T05:10:17Z) - A Zero-shot and Few-shot Study of Instruction-Finetuned Large Language
Models Applied to Clinical and Biomedical Tasks [4.208980146930325]
我々は4つの言語モデル(LLM)を評価する。
英語における13のリアル・ワールド・クリニカル・バイオメディカル・自然言語処理(NLP)タスクについて
論文 参考訳(メタデータ) (2023-07-22T15:58:17Z) - Efficiently Measuring the Cognitive Ability of LLMs: An Adaptive Testing
Perspective [63.92197404447808]
大きな言語モデル(LLM)は、人間のような認知能力を示している。
LLM評価のための適応テストフレームワークを提案する。
このアプローチは、モデルの性能に基づいて、難易度などのテスト問題の特徴を動的に調整する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Revisiting the Reliability of Psychological Scales on Large Language
Models [66.31055885857062]
本研究では,人格評価を大規模言語モデル(LLM)に適用する際の信頼性について検討する。
LLMのパーソナライズに光を当てることで、この分野での今後の探索の道を開くことに努める。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z) - Towards Interpretable Mental Health Analysis with Large Language Models [27.776003210275608]
大規模言語モデル(LLM)のメンタルヘルス分析と感情的推論能力は,5つのタスクにまたがる11のデータセット上で評価した。
本研究は, 精神保健分析のためのLCMについて, それぞれの意思決定に関する説明を提示するように指示することで, 解釈可能な精神保健分析を行う。
得られた説明の質を評価するために、厳密な人的評価を伝達し、163の人的評価による新しいデータセットを作成する。
論文 参考訳(メタデータ) (2023-04-06T19:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。