Fugu-MT 論文翻訳(概要): Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data

論文の概要: Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data

arxiv url: http://arxiv.org/abs/2307.14385v2
Date: Wed, 16 Aug 2023 06:04:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 16:22:19.839321
Title: Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data
Title（参考訳）: mental-llm:オンラインテキストデータによるメンタルヘルス予測のための大規模言語モデル活用
Authors: Xuhai Xu, Bingshen Yao, Yuanzhe Dong, Saadia Gabriel, Hong Yu, James Hendler, Marzyeh Ghassemi, Anind K. Dey, Dakuo Wang
Abstract要約: オンラインテキストデータを用いて,様々なメンタルヘルス予測タスクにおける多言語モデル(LLM)の総合評価を行った。その結果、ゼロショットプロンプト、少数ショットプロンプト、命令微調整によるLLMの有望な性能が示された。我々の最も精巧なモデルであるMental-AlpacaとMental-FLAN-T5は、バランスの取れた精度でGPT-3.5を10.9%上回り、GPT-4(250倍、150倍)を4.8%上回りました。
参考スコア（独自算出の注目度）: 38.94436960093115
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advances in large language models (LLMs) have empowered a variety of applications. However, there is still a significant gap in research when it comes to understanding and enhancing the capabilities of LLMs in the field of mental health. In this work, we present the first comprehensive evaluation of multiple LLMs, including Alpaca, Alpaca-LoRA, FLAN-T5, GPT-3.5, and GPT-4, on various mental health prediction tasks via online text data. We conduct a broad range of experiments, covering zero-shot prompting, few-shot prompting, and instruction fine-tuning. The results indicate a promising yet limited performance of LLMs with zero-shot and few-shot prompt designs for the mental health tasks. More importantly, our experiments show that instruction finetuning can significantly boost the performance of LLMs for all tasks simultaneously. Our best-finetuned models, Mental-Alpaca and Mental-FLAN-T5, outperform the best prompt design of GPT-3.5 (25 and 15 times bigger) by 10.9% on balanced accuracy and the best of GPT-4 (250 and 150 times bigger) by 4.8%. They further perform on par with the state-of-the-art task-specific language model. We also conduct an exploratory case study on LLMs' capability on the mental health reasoning tasks, illustrating the promising capability of certain models such as GPT-4. We summarize our findings into a set of action guidelines for potential methods to enhance LLMs' capability for mental health tasks. Meanwhile, we also emphasize the important limitations before achieving deployability in real-world mental health settings, such as known racial and gender bias. We highlight the important ethical risks accompanying this line of research.
Abstract（参考訳）: 大規模言語モデル(LLM)の進歩は、様々なアプリケーションに力を与えてきた。しかし、精神保健分野におけるLSMの能力の理解と向上に関して、研究には依然として大きなギャップがある。本研究は,アルパカ,アルパカ-ロラ,FLAN-T5,GPT-3.5,GPT-4を含む複数のLSMの様々なメンタルヘルス予測タスクにおけるオンラインテキストデータによる総合的な評価である。我々は、ゼロショットプロンプト、少数ショットプロンプト、命令微調整など幅広い実験を行っている。その結果、ゼロショットと数ショットのプロンプトを持つLSMの有望かつ限定的なパフォーマンスが、メンタルヘルスタスクのために設計されていることが示唆された。さらに重要なことは、命令の微調整が全てのタスクに対するLLMの性能を同時に向上させることを示すことである。当社の「メンタル・アルパカ」と「メンタル・フラン・t5」は、gpt-3.5(25倍と15倍)のベストプロンプトデザインを10.9%上回り、gpt-4(250倍と150倍)のベストを4.8%上回った。彼らはまた、最先端のタスク特化言語モデルと同等に機能する。また,llmsのメンタルヘルス推論能力に関する探索的なケーススタディを実施し,gpt-4などのモデルが有望であることを示す。本研究は,精神保健業務におけるLCMの能力を高めるための行動ガイドラインのセットにまとめる。また、人種的偏見や性別的偏見など、現実世界のメンタルヘルス設定において、デプロイ可能性を達成する前に重要な制限を強調します。この研究に付随する重要な倫理的リスクを強調します。

関連論文リスト

Beyond Scale: Small Language Models are Comparable to GPT-4 in Mental Health Understanding [12.703061322251093]
Small Language Models (SLM) は、Large Language Models (LLM) のプライバシ保護代替品である。本稿では,現在SLMのメンタルヘルス理解能力について,分類タスクの体系的評価を通じて検討する。我々の研究は、メンタルヘルス理解におけるSLMの可能性を強調し、センシティブなオンラインテキストデータを分析するための効果的なプライバシー保護ツールであることを示す。
論文参考訳（メタデータ） (2025-07-09T02:40:02Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Is your LLM trapped in a Mental Set? Investigative study on how mental sets affect the reasoning capabilities of LLMs [8.920202114368843]
本稿では,心的セットがLLMの推論能力に与える影響について検討する。メンタル・セット(Mental Sets)とは、以前成功していた戦略が非効率になったとしても継続する傾向を指す。 Llama-3.1-8B-インストラクト、Llama-3.1-70B-インストラクト、GPT-4oのようなメンタルセットの存在下でのLLMモデルの性能を比較した。
論文参考訳（メタデータ） (2025-01-21T02:29:15Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
MentalGLM Series: Explainable Large Language Models for Mental Health Analysis on Chinese Social Media [31.752563319585196]
ブラックボックスモデルはタスクを切り替えるときに柔軟性がなく、その結果は説明に欠ける。大きな言語モデル(LLM)の台頭とともに、その柔軟性はこの分野に新しいアプローチを導入した。本稿では,9Kサンプルからなる中国初のマルチタスク・ソーシャル・メディア解釈型メンタルヘルス・インストラクション・データセットを提案する。また,中国ソーシャルメディアをターゲットとしたメンタルヘルス分析を目的とした,初のオープンソースLCMであるMentalGLMシリーズモデルを提案する。
論文参考訳（メタデータ） (2024-10-14T09:29:27Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Evaluating the Effectiveness of the Foundational Models for Q&A Classification in Mental Health care [0.18416014644193068]
プレトレーニング言語モデル(PLM)は、メンタルヘルスを変革する可能性がある。本研究は,精神保健領域における質問紙と回答紙の分類におけるPLMの有効性を評価するものである。
論文参考訳（メタデータ） (2024-06-23T00:11:07Z)
WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。 LM/LLMの4つの驚くべき結果が明らかになった。
論文参考訳（メタデータ） (2024-06-17T19:50:40Z)
NegativePrompt: Leveraging Psychology for Large Language Models Enhancement via Negative Emotional Stimuli [21.846500669385193]
大規模言語モデル(LLM)は幅広い応用に不可欠なものとなっている。 LLMには感情的な知性があり、肯定的な感情刺激によってさらに発展することができる。心理学的原理に基づく新しいアプローチであるNegativePromptを紹介する。
論文参考訳（メタデータ） (2024-05-05T05:06:07Z)
A Novel Nuanced Conversation Evaluation Framework for Large Language Models in Mental Health [42.711913023646915]
大規模言語モデル(LLM)のニュアンス会話能力を評価するための新しい枠組みを提案する。そこで我々は,心理療法の会話分析文献を用いた文献から開発された,一連の定量的指標を開発した。 GPTモデルやLlamaモデルを含むいくつかの人気のあるフロンティアLCMを、検証されたメンタルヘルスデータセットを通じて評価するために、当社のフレームワークを使用します。
論文参考訳（メタデータ） (2024-03-08T23:46:37Z)
Benchmarking Hallucination in Large Language Models based on Unanswerable Math Word Problem [58.3723958800254]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて非常に効果的である。それらは幻覚と呼ばれる曖昧な文脈で信頼できない予想を生じさせる可能性がある。本稿では,不問答語問題(MWP)に基づく質問回答(QA)におけるLLM幻覚評価手法を提案する。
論文参考訳（メタデータ） (2024-03-06T09:06:34Z)
Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。 GPT-3.5でさえ、実際の出力は25%以下である。これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文参考訳（メタデータ） (2023-10-23T04:39:01Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)
Towards Interpretable Mental Health Analysis with Large Language Models [27.776003210275608]
大規模言語モデル(LLM)のメンタルヘルス分析と感情的推論能力は,5つのタスクにまたがる11のデータセット上で評価した。本研究は, 精神保健分析のためのLCMについて, それぞれの意思決定に関する説明を提示するように指示することで, 解釈可能な精神保健分析を行う。得られた説明の質を評価するために、厳密な人的評価を伝達し、163の人的評価による新しいデータセットを作成する。
論文参考訳（メタデータ） (2023-04-06T19:53:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。