論文の概要: Evaluating the Efficacy of Supervised Learning vs Large Language Models
for Identifying Cognitive Distortions and Suicidal Risks in Chinese Social
Media
- arxiv url: http://arxiv.org/abs/2309.03564v1
- Date: Thu, 7 Sep 2023 08:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 13:49:47.093549
- Title: Evaluating the Efficacy of Supervised Learning vs Large Language Models
for Identifying Cognitive Distortions and Suicidal Risks in Chinese Social
Media
- Title(参考訳): 中国のソーシャルメディアにおける認知的歪みと自殺リスクの同定における教師付き学習と大言語モデルの効果評価
- Authors: Hongzhi Qi, Qing Zhao, Changwei Song, Wei Zhai, Dan Luo, Shuo Liu, Yi
Jing Yu, Fan Wang, Huijing Zou, Bing Xiang Yang, Jianqiang Li and Guanghui Fu
- Abstract要約: 教師付き学習をベースラインとして,ゼロショット,少数ショット,微調整という3つの戦略を用いて,大規模言語モデルの有効性を検証・比較した。
その結果,大規模言語モデルと従来の教師あり学習手法との違いが明らかとなった。
本研究は,心理学分野における大規模言語モデルの利用の前方的および変容的含意について述べる。
- 参考スコア(独自算出の注目度): 24.130206803192635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models, particularly those akin to the rapidly progressing GPT
series, are gaining traction for their expansive influence. While there is keen
interest in their applicability within medical domains such as psychology,
tangible explorations on real-world data remain scant. Concurrently, users on
social media platforms are increasingly vocalizing personal sentiments; under
specific thematic umbrellas, these sentiments often manifest as negative
emotions, sometimes escalating to suicidal inclinations. Timely discernment of
such cognitive distortions and suicidal risks is crucial to effectively
intervene and potentially avert dire circumstances. Our study ventured into
this realm by experimenting on two pivotal tasks: suicidal risk and cognitive
distortion identification on Chinese social media platforms. Using supervised
learning as a baseline, we examined and contrasted the efficacy of large
language models via three distinct strategies: zero-shot, few-shot, and
fine-tuning. Our findings revealed a discernible performance gap between the
large language models and traditional supervised learning approaches, primarily
attributed to the models' inability to fully grasp subtle categories. Notably,
while GPT-4 outperforms its counterparts in multiple scenarios, GPT-3.5 shows
significant enhancement in suicide risk classification after fine-tuning. To
our knowledge, this investigation stands as the maiden attempt at gauging large
language models on Chinese social media tasks. This study underscores the
forward-looking and transformative implications of using large language models
in the field of psychology. It lays the groundwork for future applications in
psychological research and practice.
- Abstract(参考訳): 大規模言語モデル、特に急速に進歩しているGPTシリーズに類似したモデルは、その拡大した影響で勢いを増している。
心理学のような医学領域での利用性には強い関心があるが、実世界のデータに関する具体的な調査はまだ少ない。
特定のテーマの傘の下では、これらの感情はしばしば否定的な感情として現れ、時には自殺的な傾向へとエスカレートする。
このような認知的歪みや自殺リスクのタイムリーな識別は、効果的に介入し、危険な状況を避けるために重要である。
本研究は,中国のソーシャルメディアプラットフォーム上での自殺リスクと認知歪みの識別という,2つの重要な課題を実験することによって,この領域を開拓した。
教師付き学習をベースラインとして,ゼロショット,少数ショット,微調整の3つの戦略を用いて,大規模言語モデルの有効性を検討した。
以上の結果から,大規模言語モデルと従来の教師付き学習手法では,微妙なカテゴリーを完全に把握できないため,明確な性能差が認められた。
特に、GPT-4は複数のシナリオで比較した場合、GPT-3.5は微調整後の自殺リスク分類の大幅な向上を示す。
私たちの知る限りでは、この調査は中国のソーシャルメディアタスクで大規模な言語モデルを調べる最初の試みだ。
本研究は,心理学分野における大規模言語モデルの利用の前方的および変容的含意を明らかにする。
心理学研究と実践における将来の応用の土台となる。
関連論文リスト
- Exploring the Potential of the Large Language Models (LLMs) in Identifying Misleading News Headlines [2.0330684186105805]
本研究では、誤解を招くニュースの見出しと誤解を招くニュースの見出しを識別する上で、LLM(Large Language Models)の有効性について検討する。
解析の結果,ChatGPT-4の精度は良好であった。
論文 参考訳(メタデータ) (2024-05-06T04:06:45Z) - An Assessment on Comprehending Mental Health through Large Language
Models [2.7044181783627086]
成人の20%以上が、生涯に少なくとも1つの精神障害に遭遇する可能性がある。
本研究では,このギャップに対処する上で,大規模言語モデルの初期評価を行う。
DAIC-WOZデータセットの結果から、BERTやXLNetのようなトランスフォーマーベースのモデルは、大きな言語モデルよりも優れています。
論文 参考訳(メタデータ) (2024-01-09T14:50:04Z) - MR-GSM8K: A Meta-Reasoning Revolution in Large Language Model Evaluation [65.07691494584843]
本稿では,メタ推論への取り組みに挑戦する,大規模言語モデルのための新しい評価パラダイムを提案する。
このアプローチは、エージェントの認知能力を評価するために伝統的に用いられてきた既存の数学問題解決ベンチマークにおける重大な欠点に対処する。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Explainable Depression Symptom Detection in Social Media [2.433983268807517]
本稿では, トランスフォーマーアーキテクチャを用いて, ユーザの文章中の抑うつ症状マーカーの出現を検知し, 説明する。
我々の自然言語による説明により、臨床医はバリデーションされた症状に基づいてモデルの判断を解釈できる。
論文 参考訳(メタデータ) (2023-10-20T17:05:27Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - Large Language Models Can Infer Psychological Dispositions of Social
Media Users [1.2277343096128712]
本研究では,デジタルフットプリントから個人の心理的沈着を推定する大規模言語モデルの可能性について検討した。
ゼロショット学習シナリオにおいて,GPT-3.5とGPT-4がユーザのFacebookステータス更新からビッグファイブの特徴を引き出す能力を評価する。
以上の結果から,性別や年齢に対する性格推定の偏りが示唆された。
論文 参考訳(メタデータ) (2023-09-13T01:27:48Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - A Wide Evaluation of ChatGPT on Affective Computing Tasks [32.557383931586266]
GPT-4 と GPT-3.5 という ChatGPT モデルの13 個の感情計算問題に対する性能について検討した。
我々はChatGPTを、エンドツーエンドのリカレントニューラルネットワークやトランスフォーマーといった従来のNLP手法と比較する。
この結果は、ChatGPTモデルが幅広い感情的コンピューティング問題において創発的能力を示すものである。
論文 参考訳(メタデータ) (2023-08-26T16:10:30Z) - Instructed to Bias: Instruction-Tuned Language Models Exhibit Emergent Cognitive Bias [57.42417061979399]
近年の研究では、インストラクションチューニング(IT)と人間フィードバック(RLHF)による強化学習によって、大規模言語モデル(LM)の能力が劇的に向上していることが示されている。
本研究では,ITとRLHFがLMの意思決定と推論に与える影響について検討する。
以上の結果から,GPT-3,Mistral,T5ファミリーの各種モデルにおけるこれらのバイアスの存在が示唆された。
論文 参考訳(メタデータ) (2023-08-01T01:39:25Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。