論文の概要: Socially Aware Synthetic Data Generation for Suicidal Ideation Detection
Using Large Language Models
- arxiv url: http://arxiv.org/abs/2402.01712v1
- Date: Thu, 25 Jan 2024 18:25:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-11 16:26:38.352022
- Title: Socially Aware Synthetic Data Generation for Suicidal Ideation Detection
Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた適切なアイデア検出のための社会認識型合成データ生成
- Authors: Hamideh Ghanadian, Isar Nejadgholi, Hussein Al Osman
- Abstract要約: 我々は、生成AIモデルの能力を活用して、自殺的思考検出のための合成データを作成する革新的な戦略を導入する。
我々は、最先端のNLP分類モデル、特にBERTファミリー構造を中心としてベンチマークを行った。
我々の合成データ駆動方式は,両モデルに一貫したF1スコア(0.82)を提供する。
- 参考スコア(独自算出の注目度): 8.832297887534445
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Suicidal ideation detection is a vital research area that holds great
potential for improving mental health support systems. However, the sensitivity
surrounding suicide-related data poses challenges in accessing large-scale,
annotated datasets necessary for training effective machine learning models. To
address this limitation, we introduce an innovative strategy that leverages the
capabilities of generative AI models, such as ChatGPT, Flan-T5, and Llama, to
create synthetic data for suicidal ideation detection. Our data generation
approach is grounded in social factors extracted from psychology literature and
aims to ensure coverage of essential information related to suicidal ideation.
In our study, we benchmarked against state-of-the-art NLP classification
models, specifically, those centered around the BERT family structures. When
trained on the real-world dataset, UMD, these conventional models tend to yield
F1-scores ranging from 0.75 to 0.87. Our synthetic data-driven method, informed
by social factors, offers consistent F1-scores of 0.82 for both models,
suggesting that the richness of topics in synthetic data can bridge the
performance gap across different model complexities. Most impressively, when we
combined a mere 30% of the UMD dataset with our synthetic data, we witnessed a
substantial increase in performance, achieving an F1-score of 0.88 on the UMD
test set. Such results underscore the cost-effectiveness and potential of our
approach in confronting major challenges in the field, such as data scarcity
and the quest for diversity in data representation.
- Abstract(参考訳): 自殺イデオレーション検出は、メンタルヘルス支援システムを改善する大きな可能性を秘めている重要な研究分野である。
しかし、自殺関連データを取り巻く感受性は、効果的な機械学習モデルのトレーニングに必要な大規模な注釈付きデータセットにアクセスする上で問題となる。
この制限に対処するために,チャットgpt,flan-t5,llamaなどの生成型aiモデルの機能を活用し,自殺イデオレーション検出のための合成データを作成する革新的な戦略を導入する。
データ生成アプローチは,心理学文献から抽出した社会的要因を基盤とし,自殺イデオロギーに関連する本質的情報を網羅することを目的としている。
本研究では,最新のNLP分類モデル,特にBERTファミリー構造を中心としてベンチマークを行った。
実世界のデータセットであるUDDでトレーニングすると、従来のモデルでは0.75から0.87までのF1スコアが得られる傾向にある。
我々の合成データ駆動方式は,両モデルに一貫したF1スコアが0.82であることから,合成データにおけるトピックの豊かさが,異なるモデル複雑度間の性能ギャップを橋渡しできる可能性が示唆された。
もっとも印象的なことに、UMDデータセットの30%を合成データと組み合わせると、パフォーマンスが大幅に向上し、UDDテストセットでF1スコアが0.88に達した。
このような結果は、データ不足やデータ表現の多様性の追求など、この分野の主要な課題に直面する際の、当社のアプローチの費用対効果と可能性を強調します。
関連論文リスト
- Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。
本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。
本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文 参考訳(メタデータ) (2024-03-25T16:49:38Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Synthetic Data Generation with Large Language Models for Text
Classification: Potential and Limitations [21.583825474908334]
本研究では,合成データに基づいて学習したモデルの性能が,分類の主観性によってどう変化するかを検討する。
その結果,主観性は,タスクレベルとインスタンスレベルの両方において,合成データに基づいて訓練されたモデルの性能と負の相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-10-11T19:51:13Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Handling Non-ignorably Missing Features in Electronic Health Records
Data Using Importance-Weighted Autoencoders [8.518166245293703]
本稿では,生体データのランダムなパターンではなく,欠落を柔軟に扱うために,重要度重み付きオートエンコーダ(iwaes)と呼ばれるvaesの新たな拡張を提案する。
提案手法は,組み込みニューラルネットワークを用いて欠落機構をモデル化し,欠落機構の正確な形式を事前に指定する必要をなくした。
論文 参考訳(メタデータ) (2021-01-18T22:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。