論文の概要: Large Language Models Perform on Par with Experts Identifying Mental Health Factors in Adolescent Online Forums
- arxiv url: http://arxiv.org/abs/2404.16461v2
- Date: Fri, 26 Apr 2024 11:36:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 12:06:07.861371
- Title: Large Language Models Perform on Par with Experts Identifying Mental Health Factors in Adolescent Online Forums
- Title(参考訳): 若年者向けオンラインフォーラムにおけるメンタルヘルス要因の特定を専門とする大規模言語モデル
- Authors: Isabelle Lorge, Dan W. Joyce, Andrey Kormilitzin,
- Abstract要約: 子どもや青年のメンタルヘルスはここ数年着実に悪化している。
われわれは12歳から19歳の若者のReddit投稿のデータセットを作成し、TRAUMA、PreCARITY、ConDITION、SYMPTOMS、SUICIDALITY、および治療の分野の専門家によって注釈付けされた。
我々は2つの合成データセットを作成し、LLMが生成するデータにアノテートする際の性能を評価する。
GPT4は,ヒトのアノテータ間合意と同等であり,合成データの性能は著しく向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mental health in children and adolescents has been steadily deteriorating over the past few years. The recent advent of Large Language Models (LLMs) offers much hope for cost and time efficient scaling of monitoring and intervention, yet despite specifically prevalent issues such as school bullying and eating disorders, previous studies on have not investigated performance in this domain or for open information extraction where the set of answers is not predetermined. We create a new dataset of Reddit posts from adolescents aged 12-19 annotated by expert psychiatrists for the following categories: TRAUMA, PRECARITY, CONDITION, SYMPTOMS, SUICIDALITY and TREATMENT and compare expert labels to annotations from two top performing LLMs (GPT3.5 and GPT4). In addition, we create two synthetic datasets to assess whether LLMs perform better when annotating data as they generate it. We find GPT4 to be on par with human inter-annotator agreement and performance on synthetic data to be substantially higher, however we find the model still occasionally errs on issues of negation and factuality and higher performance on synthetic data is driven by greater complexity of real data rather than inherent advantage.
- Abstract(参考訳): 子どもや青年のメンタルヘルスはここ数年着実に悪化している。
近年のLarge Language Models (LLMs) の出現は、モニタリングと介入の費用と時間効率のスケーリングを大いに期待するが、学校いじめや摂食障害といった特に一般的な問題にもかかわらず、これまでの研究では、この領域のパフォーマンスや、回答の集合が定まっていないオープン情報抽出についての研究は行われていない。
TRAUMA, PreCARITY, CONDITION, SYMPTOMS, SUICIDALITY and Treatment, 専門家ラベルと2つのトップパフォーマンスLDM(GPT3.5, GPT4)のアノテーションを比較した。
さらに,2つの合成データセットを作成し,LLMが生成するデータにアノテートする際の性能を評価する。
GPT4は人間間のアノテータの合意と合成データの性能が大幅に向上するが、このモデルでは否定や事実性の問題や、合成データの高パフォーマンスが本質的に有利というよりも実際のデータの複雑さによって引き起こされることがある。
関連論文リスト
- Synthetic Data Generation with LLM for Improved Depression Prediction [5.508617844957542]
本研究では, 抑うつ予測モデルの性能向上のために, 合成データを生成するための大規模言語モデルのためのパイプラインを提案する。
データの完全性とプライバシ保護の指標が満足できるだけでなく、トレーニングデータセットの重大度分布のバランスも取れた。
論文 参考訳(メタデータ) (2024-11-26T18:31:14Z) - Chatting Up Attachment: Using LLMs to Predict Adult Bonds [0.0]
GPT-4とClaude 3 Opusを使用して、さまざまなプロファイル、子供時代の記憶、アタッチメントスタイルを持つ大人をシミュレートするエージェントを作成します。
我々は,同一の面接プロトコルを施行し,精神保健専門家によって分析・ラベル付けされた9人のヒトの転写データセットを用いて,我々のモデルを評価した。
以上の結果から,合成データのみを用いたモデルトレーニングは,人間のデータを用いたモデルトレーニングに匹敵する性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2024-08-31T04:29:19Z) - Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks [0.7071166713283337]
私たちは機械学習モデルをトレーニングするのに十分な規模のデータセットを作成しました。
私たちのゴールは自閉症の基準に対応する行動のラベル付けです。
データの増大はリコールを13%増加させたが、精度は16%低下した。
論文 参考訳(メタデータ) (2024-05-08T03:18:12Z) - Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。
そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:28:48Z) - Detecting the Clinical Features of Difficult-to-Treat Depression using
Synthetic Data from Large Language Models [0.20971479389679337]
我々は,日常的に収集された物語(自由テキスト)電子健康記録データを問うことができるLarge Language Model(LLM)ベースのツールの開発を目指している。
LLM生成合成データ(GPT3.5)と非最大抑圧(NMS)アルゴリズムを用いてBERTに基づくスパン抽出モデルを訓練する。
以上の結果から,20因子のセットによる臨床データによる総合成績 (0.70 F1) と重要なDTDのサブセットにおける高いパフォーマンス (0.85 F1 と 0.95 の精度) が得られた。
論文 参考訳(メタデータ) (2024-02-12T13:34:33Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - The Parrot Dilemma: Human-Labeled vs. LLM-augmented Data in
Classification Tasks [0.0]
GPT-4 と Llama-2 から合成したデータと人間のラベル付きデータとを10種類のCSS分類タスクで比較した。
以上の結果から,人間のラベル付きデータに基づいてトレーニングしたモデルでは,人工的に強化したモデルよりも優れた,あるいは同等の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-04-26T23:09:02Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。
本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。
提案手法により,下流タスクの性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-03-08T03:56:31Z) - DeepRite: Deep Recurrent Inverse TreatmEnt Weighting for Adjusting
Time-varying Confounding in Modern Longitudinal Observational Data [68.29870617697532]
時系列データにおける時間変化の相違に対するDeep Recurrent Inverse TreatmEnt重み付け(DeepRite)を提案する。
DeepRiteは、合成データから基底的真理を復元し、実際のデータから偏りのない処理効果を推定する。
論文 参考訳(メタデータ) (2020-10-28T15:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。