Fugu-MT 論文翻訳(概要): Large Language Models Perform on Par with Experts Identifying Mental Health Factors in Adolescent Online Forums

論文の概要: Large Language Models Perform on Par with Experts Identifying Mental Health Factors in Adolescent Online Forums

arxiv url: http://arxiv.org/abs/2404.16461v1
Date: Thu, 25 Apr 2024 09:42:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 14:09:25.180225
Title: Large Language Models Perform on Par with Experts Identifying Mental Health Factors in Adolescent Online Forums
Title（参考訳）: 若年者向けオンラインフォーラムにおけるメンタルヘルス要因の特定を専門とする大規模言語モデル
Authors: Isablle Lorge, Dam W. Joyce, Andrey Kormilitzin,
Abstract要約: 子どもや青年のメンタルヘルスはここ数年着実に悪化している。われわれは、12歳から19歳の若者のReddit投稿に、TRAUMA、PreCARITY、ConDITION、SYMPTOMS、SUICIDALITY、および治療に関する専門家精神科医が注釈を付けたデータセットを作成している。我々は2つの合成データセットを作成し、LLMが生成するデータにアノテートする際の性能を評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mental health in children and adolescents has been steadily deteriorating over the past few years [ 1 ]. The recent advent of Large Language Models (LLMs) offers much hope for cost and time efficient scaling of monitoring and intervention, yet despite specifically prevalent issues such as school bullying and eating disorders, previous studies on have not investigated performance in this domain or for open information extraction where the set of answers is not predetermined. We create a new dataset of Reddit posts from adolescents aged 12-19 annotated by expert psychiatrists for the following categories: TRAUMA, PRECARITY, CONDITION, SYMPTOMS, SUICIDALITY and TREATMENT and compare expert labels to annotations from two top performing LLMs (GPT3.5 and GPT4). In addition, we create two synthetic datasets to assess whether LLMs perform better when annotating data as they generate it. We find GPT4 to be on par with human inter-annotator agreement and performance on synthetic data to be substantially higher, however we find the model still occasionally errs on issues of negation and factuality and higher performance on synthetic data is driven by greater complexity of real data rather than inherent advantage.
Abstract（参考訳）: 子どもや青年のメンタルヘルスはここ数年着実に悪化している[1]。近年のLarge Language Models (LLMs) の出現は、モニタリングと介入の費用と時間効率のスケーリングを大いに期待するが、学校いじめや摂食障害といった特に一般的な問題にもかかわらず、これまでの研究では、この領域のパフォーマンスや、回答の集合が定まっていないオープン情報抽出についての研究は行われていない。 TRAUMA, PreCARITY, CONDITION, SYMPTOMS, SUICIDALITY and Treatment, 専門家ラベルと2つのトップパフォーマンスLDM(GPT3.5, GPT4)のアノテーションを比較した。さらに,2つの合成データセットを作成し,LLMが生成するデータにアノテートする際の性能を評価する。 GPT4は人間間のアノテータの合意と合成データの性能が大幅に向上するが、このモデルでは否定や事実性の問題や、合成データの高パフォーマンスが本質的に有利というよりも実際のデータの複雑さによって引き起こされることがある。

関連論文リスト

LSM-2: Learning from Incomplete Wearable Sensor Data [65.58595667477505]
本稿では,Adaptive and Inherited Masking (AIM)を用いた第2世代Large Sensor Model (LSM-2)を紹介する。 AIMは明示的な計算を必要とせず、不完全なデータから直接堅牢な表現を学習する。 AIMを用いた LSM-2 は, 分類, 回帰, 生成モデルなど, 多様なタスクにまたがる最高の性能を実現する。
論文参考訳（メタデータ） (2025-06-05T17:57:11Z)
LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文参考訳（メタデータ） (2025-01-07T08:49:04Z)
Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文参考訳（メタデータ） (2024-12-04T19:20:32Z)
Synthetic Data Generation with LLM for Improved Depression Prediction [5.508617844957542]
本研究では, 抑うつ予測モデルの性能向上のために, 合成データを生成するための大規模言語モデルのためのパイプラインを提案する。データの完全性とプライバシ保護の指標が満足できるだけでなく、トレーニングデータセットの重大度分布のバランスも取れた。
論文参考訳（メタデータ） (2024-11-26T18:31:14Z)
Chatting Up Attachment: Using LLMs to Predict Adult Bonds [0.0]
GPT-4とClaude 3 Opusを使用して、さまざまなプロファイル、子供時代の記憶、アタッチメントスタイルを持つ大人をシミュレートするエージェントを作成します。我々は,同一の面接プロトコルを施行し,精神保健専門家によって分析・ラベル付けされた9人のヒトの転写データセットを用いて,我々のモデルを評価した。以上の結果から,合成データのみを用いたモデルトレーニングは,人間のデータを用いたモデルトレーニングに匹敵する性能を発揮することが示唆された。
論文参考訳（メタデータ） (2024-08-31T04:29:19Z)
Utilizing Large Language Models to Generate Synthetic Data to Increase the Performance of BERT-Based Neural Networks [0.7071166713283337]
私たちは機械学習モデルをトレーニングするのに十分な規模のデータセットを作成しました。私たちのゴールは自閉症の基準に対応する行動のラベル付けです。データの増大はリコールを13%増加させたが、精度は16%低下した。
論文参考訳（メタデータ） (2024-05-08T03:18:12Z)
Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。 3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文参考訳（メタデータ） (2024-04-10T14:50:10Z)
ChatGPT Based Data Augmentation for Improved Parameter-Efficient Debiasing of LLMs [65.9625653425636]
大型言語モデル(LLM)は有害な社会的バイアスを示す。そこで本研究では,ChatGPTを用いて合成学習データを生成する手法を提案する。
論文参考訳（メタデータ） (2024-02-19T01:28:48Z)
Detecting the Clinical Features of Difficult-to-Treat Depression using Synthetic Data from Large Language Models [0.20971479389679337]
我々は,日常的に収集された物語(自由テキスト)電子健康記録データを問うことができるLarge Language Model(LLM)ベースのツールの開発を目指している。 LLM生成合成データ(GPT3.5)と非最大抑圧(NMS)アルゴリズムを用いてBERTに基づくスパン抽出モデルを訓練する。以上の結果から,20因子のセットによる臨床データによる総合成績 (0.70 F1) と重要なDTDのサブセットにおける高いパフォーマンス (0.85 F1 と 0.95 の精度) が得られた。
論文参考訳（メタデータ） (2024-02-12T13:34:33Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)
The Parrot Dilemma: Human-Labeled vs. LLM-augmented Data in Classification Tasks [0.0]
GPT-4 と Llama-2 から合成したデータと人間のラベル付きデータとを10種類のCSS分類タスクで比較した。以上の結果から,人間のラベル付きデータに基づいてトレーニングしたモデルでは,人工的に強化したモデルよりも優れた,あるいは同等の性能を示すことがわかった。
論文参考訳（メタデータ） (2023-04-26T23:09:02Z)
Large Language Models for Healthcare Data Augmentation: An Example on Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文参考訳（メタデータ） (2023-03-24T03:14:00Z)
Does Synthetic Data Generation of LLMs Help Clinical Text Mining? [51.205078179427645]
臨床テキストマイニングにおけるOpenAIのChatGPTの可能性を検討する。本稿では,高品質な合成データを大量に生成する新たな学習パラダイムを提案する。提案手法により,下流タスクの性能が大幅に向上した。
論文参考訳（メタデータ） (2023-03-08T03:56:31Z)
DeepRite: Deep Recurrent Inverse TreatmEnt Weighting for Adjusting Time-varying Confounding in Modern Longitudinal Observational Data [68.29870617697532]
時系列データにおける時間変化の相違に対するDeep Recurrent Inverse TreatmEnt重み付け(DeepRite)を提案する。 DeepRiteは、合成データから基底的真理を復元し、実際のデータから偏りのない処理効果を推定する。
論文参考訳（メタデータ） (2020-10-28T15:05:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。