論文の概要: Mental-LLM: Leveraging Large Language Models for Mental Health
Prediction via Online Text Data
- arxiv url: http://arxiv.org/abs/2307.14385v4
- Date: Sun, 28 Jan 2024 16:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 22:19:56.663086
- Title: Mental-LLM: Leveraging Large Language Models for Mental Health
Prediction via Online Text Data
- Title(参考訳): mental-llm:オンラインテキストデータによるメンタルヘルス予測のための大規模言語モデル活用
- Authors: Xuhai Xu, Bingsheng Yao, Yuanzhe Dong, Saadia Gabriel, Hong Yu, James
Hendler, Marzyeh Ghassemi, Anind K. Dey, Dakuo Wang
- Abstract要約: 本稿では,様々なメンタルヘルス予測タスクにおける多言語モデル(LLM)の包括的評価について述べる。
ゼロショットプロンプト、少数ショットプロンプト、微調整を含む実験を行う。
我々の最も精巧なモデルであるMental-AlpacaとMental-FLAN-T5は、バランスの取れた精度でGPT-3.5を10.9%上回り、GPT-4(250倍、150倍)を4.8%上回りました。
- 参考スコア(独自算出の注目度): 42.965788205842465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in large language models (LLMs) have empowered a variety of
applications. However, there is still a significant gap in research when it
comes to understanding and enhancing the capabilities of LLMs in the field of
mental health. In this work, we present a comprehensive evaluation of multiple
LLMs on various mental health prediction tasks via online text data, including
Alpaca, Alpaca-LoRA, FLAN-T5, GPT-3.5, and GPT-4. We conduct a broad range of
experiments, covering zero-shot prompting, few-shot prompting, and instruction
fine-tuning. The results indicate a promising yet limited performance of LLMs
with zero-shot and few-shot prompt designs for mental health tasks. More
importantly, our experiments show that instruction finetuning can significantly
boost the performance of LLMs for all tasks simultaneously. Our best-finetuned
models, Mental-Alpaca and Mental-FLAN-T5, outperform the best prompt design of
GPT-3.5 (25 and 15 times bigger) by 10.9% on balanced accuracy and the best of
GPT-4 (250 and 150 times bigger) by 4.8%. They further perform on par with the
state-of-the-art task-specific language model. We also conduct an exploratory
case study on LLMs' capability on mental health reasoning tasks, illustrating
the promising capability of certain models such as GPT-4. We summarize our
findings into a set of action guidelines for potential methods to enhance LLMs'
capability for mental health tasks. Meanwhile, we also emphasize the important
limitations before achieving deployability in real-world mental health
settings, such as known racial and gender bias. We highlight the important
ethical risks accompanying this line of research.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、様々なアプリケーションに力を与えてきた。
しかし、精神保健分野におけるLSMの能力の理解と向上に関して、研究には依然として大きなギャップがある。
本稿では,アルパカ,アルパカ-ロラ,FLAN-T5,GPT-3.5,GPT-4などのオンラインテキストデータを用いて,メンタルヘルス予測タスクにおける複数のLCMの総合評価を行う。
我々は、ゼロショットプロンプト、少数ショットプロンプト、命令微調整など幅広い実験を行っている。
結果は、ゼロショットと数ショットのプロンプトによるメンタルヘルスタスクのためのLLMの性能は、有望だが限定的であることを示している。
さらに重要なことは、命令の微調整が全てのタスクに対するLLMの性能を同時に向上させることを示すことである。
当社の「メンタル・アルパカ」と「メンタル・フラン・t5」は、gpt-3.5(25倍と15倍)のベストプロンプトデザインを10.9%上回り、gpt-4(250倍と150倍)のベストを4.8%上回った。
彼らはまた、最先端のタスク特化言語モデルと同等に機能する。
また,llmsのメンタルヘルス推論能力に関する探索的なケーススタディを実施し,gpt-4などのモデルが有望であることを示す。
本研究は,精神保健業務におけるLCMの能力を高めるための行動ガイドラインのセットにまとめる。
また、人種的偏見や性別的偏見など、現実世界のメンタルヘルス設定において、デプロイ可能性を達成する前に重要な制限を強調します。
この研究に付随する重要な倫理的リスクを強調します。
関連論文リスト
- MentalGLM Series: Explainable Large Language Models for Mental Health Analysis on Chinese Social Media [31.752563319585196]
ブラックボックスモデルはタスクを切り替えるときに柔軟性がなく、その結果は説明に欠ける。
大きな言語モデル(LLM)の台頭とともに、その柔軟性はこの分野に新しいアプローチを導入した。
本稿では,9Kサンプルからなる中国初のマルチタスク・ソーシャル・メディア解釈型メンタルヘルス・インストラクション・データセットを提案する。
また,中国ソーシャルメディアをターゲットとしたメンタルヘルス分析を目的とした,初のオープンソースLCMであるMentalGLMシリーズモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T09:29:27Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Evaluating the Effectiveness of the Foundational Models for Q&A Classification in Mental Health care [0.18416014644193068]
プレトレーニング言語モデル(PLM)は、メンタルヘルスを変革する可能性がある。
本研究は,精神保健領域における質問紙と回答紙の分類におけるPLMの有効性を評価するものである。
論文 参考訳(メタデータ) (2024-06-23T00:11:07Z) - WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - NegativePrompt: Leveraging Psychology for Large Language Models Enhancement via Negative Emotional Stimuli [21.846500669385193]
大規模言語モデル(LLM)は幅広い応用に不可欠なものとなっている。
LLMには感情的な知性があり、肯定的な感情刺激によってさらに発展することができる。
心理学的原理に基づく新しいアプローチであるNegativePromptを紹介する。
論文 参考訳(メタデータ) (2024-05-05T05:06:07Z) - A Novel Nuanced Conversation Evaluation Framework for Large Language Models in Mental Health [42.711913023646915]
大規模言語モデル(LLM)のニュアンス会話能力を評価するための新しい枠組みを提案する。
そこで我々は,心理療法の会話分析文献を用いた文献から開発された,一連の定量的指標を開発した。
GPTモデルやLlamaモデルを含むいくつかの人気のあるフロンティアLCMを、検証されたメンタルヘルスデータセットを通じて評価するために、当社のフレームワークを使用します。
論文 参考訳(メタデータ) (2024-03-08T23:46:37Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Towards Interpretable Mental Health Analysis with Large Language Models [27.776003210275608]
大規模言語モデル(LLM)のメンタルヘルス分析と感情的推論能力は,5つのタスクにまたがる11のデータセット上で評価した。
本研究は, 精神保健分析のためのLCMについて, それぞれの意思決定に関する説明を提示するように指示することで, 解釈可能な精神保健分析を行う。
得られた説明の質を評価するために、厳密な人的評価を伝達し、163の人的評価による新しいデータセットを作成する。
論文 参考訳(メタデータ) (2023-04-06T19:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。