論文の概要: Towards Algorithmic Fidelity: Mental Health Representation across Demographics in Synthetic vs. Human-generated Data
- arxiv url: http://arxiv.org/abs/2403.16909v1
- Date: Mon, 25 Mar 2024 16:21:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 20:34:33.680258
- Title: Towards Algorithmic Fidelity: Mental Health Representation across Demographics in Synthetic vs. Human-generated Data
- Title(参考訳): アルゴリズムの忠実性に向けて:合成と人為的データにおけるデモグラフィー間のメンタルヘルス表現
- Authors: Shinka Mori, Oana Ignat, Andrew Lee, Rada Mihalcea,
- Abstract要約: HEADROOMは,抑うつ性ストレス因子に関する3,120のポストからなる合成データセットである。
本研究は,各人口集団の主ストレス要因を特定するために,意味的および語彙的分析を行う。
本稿では,GPT-3を用いた抑うつデータ作成のためのクエリ生成手法を提案する。
- 参考スコア(独自算出の注目度): 27.13970925299262
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generation has the potential to impact applications and domains with scarce data. However, before such data is used for sensitive tasks such as mental health, we need an understanding of how different demographics are represented in it. In our paper, we analyze the potential of producing synthetic data using GPT-3 by exploring the various stressors it attributes to different race and gender combinations, to provide insight for future researchers looking into using LLMs for data generation. Using GPT-3, we develop HEADROOM, a synthetic dataset of 3,120 posts about depression-triggering stressors, by controlling for race, gender, and time frame (before and after COVID-19). Using this dataset, we conduct semantic and lexical analyses to (1) identify the predominant stressors for each demographic group; and (2) compare our synthetic data to a human-generated dataset. We present the procedures to generate queries to develop depression data using GPT-3, and conduct analyzes to uncover the types of stressors it assigns to demographic groups, which could be used to test the limitations of LLMs for synthetic data generation for depression data. Our findings show that synthetic data mimics some of the human-generated data distribution for the predominant depression stressors across diverse demographics.
- Abstract(参考訳): 合成データ生成は、少ないデータを持つアプリケーションやドメインに影響を与える可能性がある。
しかし、そのようなデータがメンタルヘルスなどのセンシティブなタスクに使用される前に、どのように異なる人口動態が表されるかを理解する必要がある。
本稿では,GPT-3を用いた合成データ生成の可能性について,人種と性別の組み合わせの異なる様々なストレス要因を探索することにより分析し,データ生成にLLMを用いた今後の研究者の知見を提供する。
GPT-3を用いて、人種、性別、時間枠(COVID-19の前後)を制御し、抑うつ性ストレス因子に関する3,120の投稿を合成したHEADROOMを開発する。
本データセットを用いて,(1)各人口層群において支配的なストレス要因を識別するための意味的および語彙的分析を行い,(2)人工的データと人為的データセットを比較した。
本稿では,GPT-3を用いた抑うつデータ作成のためのクエリ生成手法を提案するとともに,人口集団に割り当てるストレス要因の種類を明らかにするための分析を行い,抑うつデータのための合成データ生成におけるLLMの限界を検証した。
以上の結果から, 多様な人口層にまたがる優越性抑うつストレスに対する, 人為的なデータ分布の再現が示唆された。
関連論文リスト
- Synthetic Data Generation with LLM for Improved Depression Prediction [5.508617844957542]
本研究では, 抑うつ予測モデルの性能向上のために, 合成データを生成するための大規模言語モデルのためのパイプラインを提案する。
データの完全性とプライバシ保護の指標が満足できるだけでなく、トレーニングデータセットの重大度分布のバランスも取れた。
論文 参考訳(メタデータ) (2024-11-26T18:31:14Z) - Exploring the Impact of Synthetic Data for Aerial-view Human Detection [17.41001388151408]
航空ビューによる人間の検出は、より多様な人間の外観を捉えるために、大規模なデータに対する大きな需要がある。
合成データはデータを拡張するのに十分なリソースだが、実際のデータとのドメインギャップは、トレーニングで使用する上で最大の障害である。
論文 参考訳(メタデータ) (2024-05-24T04:19:48Z) - A Demographic-Conditioned Variational Autoencoder for fMRI Distribution Sampling and Removal of Confounds [49.34500499203579]
変動型オートエンコーダ(VAE)ベースのモデルであるDemoVAEを作成し、人口統計学から fMRI の特徴を推定する。
ユーザが供給する人口動態に基づいて,高品質な合成fMRIデータを生成する。
論文 参考訳(メタデータ) (2024-05-13T17:49:20Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - Generating Faithful Synthetic Data with Large Language Models: A Case
Study in Computational Social Science [13.854807858791652]
我々は、合成データ生成における広範囲な問題に取り組み、その生成分布は、研究者が関心を持つ実世界のデータ分布とは異なることが多い。
本研究では,合成データの忠実度を高めるための3つの戦略について検討する。
本稿では,特定のタスクに対して高忠実度合成データを生成する方法について提案する。
論文 参考訳(メタデータ) (2023-05-24T11:27:59Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - SynBody: Synthetic Dataset with Layered Human Models for 3D Human
Perception and Modeling [93.60731530276911]
我々は3つの魅力的な特徴を持つ新しい合成データセット、SynBodyを紹介した。
データセットは、正確な3Dアノテーションを備えた1.2Mイメージで構成され、1万の人体モデル、1,187のアクション、さまざまな視点をカバーしている。
論文 参考訳(メタデータ) (2023-03-30T13:30:12Z) - Label scarcity in biomedicine: Data-rich latent factor discovery
enhances phenotype prediction [102.23901690661916]
低次元の埋め込み空間は、健康指標、ライフスタイル、および人口動態の予測をデータスカース化するために、英国バイオバンクの人口データセットから導出することができる。
半超越的アプローチによるパフォーマンス向上は、おそらく様々な医学データサイエンス応用にとって重要な要素となるだろう。
論文 参考訳(メタデータ) (2021-10-12T16:25:50Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。