論文の概要: Applying and Evaluating Large Language Models in Mental Health Care: A Scoping Review of Human-Assessed Generative Tasks
- arxiv url: http://arxiv.org/abs/2408.11288v1
- Date: Wed, 21 Aug 2024 02:21:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 18:38:58.005615
- Title: Applying and Evaluating Large Language Models in Mental Health Care: A Scoping Review of Human-Assessed Generative Tasks
- Title(参考訳): メンタルヘルスケアにおける大規模言語モデルの適用と評価 : 人為的な生成課題のスコーピング・レビュー
- Authors: Yining Hua, Hongbin Na, Zehan Li, Fenglin Liu, Xiao Fang, David Clifton, John Torous,
- Abstract要約: 大規模言語モデル(LLM)はメンタルヘルスのための有望なツールとして登場し、人間のような反応を生成する能力を通じてスケーラブルなサポートを提供する。
しかし, 臨床環境におけるこれらのモデルの有効性は明らかになっていない。
このスコーピングレビューは、これらのモデルが現実世界のシナリオで人間の参加者とテストされた研究に焦点を当てている。
- 参考スコア(独自算出の注目度): 16.099253839889148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are emerging as promising tools for mental health care, offering scalable support through their ability to generate human-like responses. However, the effectiveness of these models in clinical settings remains unclear. This scoping review aimed to assess the current generative applications of LLMs in mental health care, focusing on studies where these models were tested with human participants in real-world scenarios. A systematic search across APA PsycNet, Scopus, PubMed, and Web of Science identified 726 unique articles, of which 17 met the inclusion criteria. These studies encompassed applications such as clinical assistance, counseling, therapy, and emotional support. However, the evaluation methods were often non-standardized, with most studies relying on ad hoc scales that limit comparability and robustness. Privacy, safety, and fairness were also frequently underexplored. Moreover, reliance on proprietary models, such as OpenAI's GPT series, raises concerns about transparency and reproducibility. While LLMs show potential in expanding mental health care access, especially in underserved areas, the current evidence does not fully support their use as standalone interventions. More rigorous, standardized evaluations and ethical oversight are needed to ensure these tools can be safely and effectively integrated into clinical practice.
- Abstract(参考訳): 大規模言語モデル(LLM)はメンタルヘルスのための有望なツールとして登場し、人間のような反応を生成する能力を通じてスケーラブルなサポートを提供する。
しかし, 臨床環境におけるこれらのモデルの有効性は明らかになっていない。
このスコーピングレビューは、メンタルヘルスケアにおけるLLMの現在の生成的応用を評価することを目的としており、実際のシナリオにおいて、これらのモデルが人間の被験者とテストされた研究に焦点を当てている。
APA PsycNet, Scopus, PubMed, およびWeb of Scienceの体系的な検索では、726のユニークな記事が特定され、そのうち17が包含基準を満たした。
これらの研究は、臨床補助、カウンセリング、セラピー、情緒的支援などの応用を含んでいた。
しかし、評価法はしばしば非標準化され、ほとんどの研究はコンパビリティとロバスト性を制限するアドホックスケールに依存していた。
プライバシー、安全、公平性もしばしば過小評価された。
さらに、OpenAIのGPTシリーズのようなプロプライエタリなモデルへの依存は、透明性と再現性に対する懸念を高める。
LLMは、特に保護されていない地域では、メンタルヘルスへのアクセスを拡大する可能性を示しているが、現在の証拠は独立した介入としての使用を完全には支持していない。
より厳格で標準化された評価と倫理的監督は、これらのツールが安全かつ効果的に臨床実践に統合できることを保証するために必要である。
関連論文リスト
- A Survey of Models for Cognitive Diagnosis: New Developments and Future Directions [66.40362209055023]
本研究の目的は,認知診断の現在のモデルについて,機械学習を用いた新たな展開に注目した調査を行うことである。
モデル構造,パラメータ推定アルゴリズム,モデル評価方法,適用例を比較して,認知診断モデルの最近の傾向を概観する。
論文 参考訳(メタデータ) (2024-07-07T18:02:00Z) - Large Language Model for Mental Health: A Systematic Review [2.9429776664692526]
大規模言語モデル(LLM)は、デジタルヘルスの潜在的な応用に対して大きな注目を集めている。
この体系的なレビューは、早期スクリーニング、デジタル介入、臨床応用におけるその強みと限界に焦点を当てている。
論文 参考訳(メタデータ) (2024-02-19T17:58:41Z) - RIDGE: Reproducibility, Integrity, Dependability, Generalizability, and Efficiency Assessment of Medical Image Segmentation Models [1.4675465116143782]
本稿では, 深層学習に基づく医用画像分割モデルの再現性, 統合性, 依存性, 一般化性, 効率性を評価するための RIDGE チェックリストを提案する。
RIDGEチェックリストは単なる評価ツールではなく、研究の質と透明性の向上を目指す研究者のためのガイドラインでもある。
論文 参考訳(メタデータ) (2024-01-16T21:45:08Z) - From Classification to Clinical Insights: Towards Analyzing and
Reasoning About Mobile and Behavioral Health Data With Large Language Models [22.140953523632724]
我々は,多センサデータから臨床的に有用な知見を合成するために,大規模言語モデルを活用する新しいアプローチを採っている。
うつ病や不安などの症状とデータの傾向がどのように関連しているかを,LSMを用いて推論する思考促進手法の連鎖を構築した。
GPT-4のようなモデルでは数値データの75%を正確に参照しており、臨床参加者は、この手法を用いて自己追跡データを解釈することへの強い関心を表明している。
論文 参考訳(メタデータ) (2023-11-21T23:53:27Z) - Self-Diagnosis and Large Language Models: A New Front for Medical
Misinformation [8.738092015092207]
一般ユーザによる自己診断のレンズから,大規模言語モデル(LLM)の性能を評価する。
本研究では,実世界の事例を模倣したオープンエンド質問に対する応答を評価するテスト手法を開発した。
a) これらのモデルでは, 既知よりもパフォーマンスが悪く, b) 誤ったレコメンデーションを述べる際に, 過度な自信を含む特異な行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-07-10T21:28:26Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Adaptive Identification of Populations with Treatment Benefit in
Clinical Trials: Machine Learning Challenges and Solutions [78.31410227443102]
確定的臨床試験において,特定の治療の恩恵を受ける患者サブポピュレーションを適応的に同定する問題について検討した。
サブポピュレーション構築のためのメタアルゴリズムであるAdaGGIとAdaGCPIを提案する。
論文 参考訳(メタデータ) (2022-08-11T14:27:49Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。