論文の概要: Leveraging Large Language Models for Mental Health Prediction via Online
Text Data
- arxiv url: http://arxiv.org/abs/2307.14385v1
- Date: Wed, 26 Jul 2023 06:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 17:07:11.953733
- Title: Leveraging Large Language Models for Mental Health Prediction via Online
Text Data
- Title(参考訳): オンラインテキストデータを用いた大規模言語モデルを用いたメンタルヘルス予測
- Authors: Xuhai Xu, Bingshen Yao, Yuanzhe Dong, Hong Yu, James Hendler, Anind K.
Dey, Dakuo Wang
- Abstract要約: オンラインテキストデータを用いて,様々なメンタルヘルス予測タスクにおける多言語モデル(LLM)の総合評価を行った。
我々は、ゼロショットプロンプト、少数ショットプロンプト、命令微調整など、幅広い実験を行っている。
我々の最も精巧なモデルであるMental-Alpacaは、バランスの取れた精度でGPT-3.5(25倍大きい)を16.7%上回り、最先端のタスク固有モデルと同等の性能を発揮する。
- 参考スコア(独自算出の注目度): 26.27901228869122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent technology boost of large language models (LLMs) has empowered a
variety of applications. However, there is very little research on
understanding and improving LLMs' capability for the mental health domain. In
this work, we present the first comprehensive evaluation of multiple LLMs,
including Alpaca, Alpaca-LoRA, and GPT-3.5, on various mental health prediction
tasks via online text data. We conduct a wide range of experiments, covering
zero-shot prompting, few-shot prompting, and instruction finetuning. The
results indicate the promising yet limited performance of LLMs with zero-shot
and few-shot prompt designs for mental health tasks. More importantly, our
experiments show that instruction finetuning can significantly boost the
performance of LLMs for all tasks simultaneously. Our best-finetuned model,
Mental-Alpaca, outperforms GPT-3.5 (25 times bigger) by 16.7\% on balanced
accuracy and performs on par with the state-of-the-art task-specific model. We
summarize our findings into a set of action guidelines for future researchers,
engineers, and practitioners on how to empower LLMs with better mental health
domain knowledge and become an expert in mental health prediction tasks.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)の技術強化は、様々なアプリケーションに力を与えている。
しかし、精神保健領域におけるLSMの能力の理解と改善に関する研究はほとんどない。
本研究は,アルパカ,アルパカ-ロラ,GPT-3.5を含む複数のLSMの様々なメンタルヘルス予測タスクにおけるオンラインテキストデータによる総合的な評価である。
ゼロショットプロンプト,少数ショットプロンプト,インストラクションの微調整など,幅広い実験を実施した。
その結果、ゼロショットと数ショットのプロンプトを持つLSMの有望な性能は、メンタルヘルスタスクのための設計であることがわかった。
さらに重要なことは、命令の微調整が全てのタスクに対するLLMの性能を同時に向上させることを示すことである。
我々の最も精巧なモデルであるMental-Alpacaは、バランスの取れた精度でGPT-3.5(25倍)を16.7%上回り、最先端のタスク特化モデルと同等に動作します。
我々は,今後の研究者,技術者,実践者に対して,llmによりよいメンタルヘルス領域知識を付与し,メンタルヘルス予測タスクの専門家となるための一連の行動ガイドラインをまとめる。
関連論文リスト
- MentalGLM Series: Explainable Large Language Models for Mental Health Analysis on Chinese Social Media [31.752563319585196]
ブラックボックスモデルはタスクを切り替えるときに柔軟性がなく、その結果は説明に欠ける。
大きな言語モデル(LLM)の台頭とともに、その柔軟性はこの分野に新しいアプローチを導入した。
本稿では,9Kサンプルからなる中国初のマルチタスク・ソーシャル・メディア解釈型メンタルヘルス・インストラクション・データセットを提案する。
また,中国ソーシャルメディアをターゲットとしたメンタルヘルス分析を目的とした,初のオープンソースLCMであるMentalGLMシリーズモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T09:29:27Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Evaluating the Effectiveness of the Foundational Models for Q&A Classification in Mental Health care [0.18416014644193068]
プレトレーニング言語モデル(PLM)は、メンタルヘルスを変革する可能性がある。
本研究は,精神保健領域における質問紙と回答紙の分類におけるPLMの有効性を評価するものである。
論文 参考訳(メタデータ) (2024-06-23T00:11:07Z) - WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - NegativePrompt: Leveraging Psychology for Large Language Models Enhancement via Negative Emotional Stimuli [21.846500669385193]
大規模言語モデル(LLM)は幅広い応用に不可欠なものとなっている。
LLMには感情的な知性があり、肯定的な感情刺激によってさらに発展することができる。
心理学的原理に基づく新しいアプローチであるNegativePromptを紹介する。
論文 参考訳(メタデータ) (2024-05-05T05:06:07Z) - A Novel Nuanced Conversation Evaluation Framework for Large Language Models in Mental Health [42.711913023646915]
大規模言語モデル(LLM)のニュアンス会話能力を評価するための新しい枠組みを提案する。
そこで我々は,心理療法の会話分析文献を用いた文献から開発された,一連の定量的指標を開発した。
GPTモデルやLlamaモデルを含むいくつかの人気のあるフロンティアLCMを、検証されたメンタルヘルスデータセットを通じて評価するために、当社のフレームワークを使用します。
論文 参考訳(メタデータ) (2024-03-08T23:46:37Z) - Benchmarking Hallucination in Large Language Models based on
Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。
それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。
本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文 参考訳(メタデータ) (2024-03-06T09:06:34Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Towards Interpretable Mental Health Analysis with Large Language Models [27.776003210275608]
大規模言語モデル(LLM)のメンタルヘルス分析と感情的推論能力は,5つのタスクにまたがる11のデータセット上で評価した。
本研究は, 精神保健分析のためのLCMについて, それぞれの意思決定に関する説明を提示するように指示することで, 解釈可能な精神保健分析を行う。
得られた説明の質を評価するために、厳密な人的評価を伝達し、163の人的評価による新しいデータセットを作成する。
論文 参考訳(メタデータ) (2023-04-06T19:53:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。