論文の概要: Augmenting Reddit Posts to Determine Wellness Dimensions impacting
Mental Health
- arxiv url: http://arxiv.org/abs/2306.04059v1
- Date: Tue, 6 Jun 2023 23:15:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 16:48:19.336941
- Title: Augmenting Reddit Posts to Determine Wellness Dimensions impacting
Mental Health
- Title(参考訳): Reddit投稿を拡大してメンタルヘルスに影響を及ぼす健康度を決定
- Authors: Chandreen Liyanage, Muskan Garg, Vijay Mago, Sunghwan Sohn
- Abstract要約: 本稿では,プロンプトベースジェネレーティブNLPモデルによる簡易かつ効果的なデータ拡張手法を提案する。
既存の解釈と拡張データ間のROUGEスコアと構文・意味的類似性を評価する。
- 参考スコア(独自算出の注目度): 0.7874708385247353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amid ongoing health crisis, there is a growing necessity to discern possible
signs of Wellness Dimensions (WD) manifested in self-narrated text. As the
distribution of WD on social media data is intrinsically imbalanced, we
experiment the generative NLP models for data augmentation to enable further
improvement in the pre-screening task of classifying WD. To this end, we
propose a simple yet effective data augmentation approach through prompt-based
Generative NLP models, and evaluate the ROUGE scores and syntactic/semantic
similarity among existing interpretations and augmented data. Our approach with
ChatGPT model surpasses all the other methods and achieves improvement over
baselines such as Easy-Data Augmentation and Backtranslation. Introducing data
augmentation to generate more training samples and balanced dataset, results in
the improved F-score and the Matthew's Correlation Coefficient for upto 13.11%
and 15.95%, respectively.
- Abstract(参考訳): 健康危機が続く中、自己診断テキストに現れるウェルネス次元(WD)の兆候を識別する必要性が高まっている。
ソーシャルメディアデータ上でのWDの分布は本質的に不均衡であるので,データ拡張のための生成NLPモデルを実験し,WD分類の事前スクリーニングタスクをさらに改善する。
そこで本研究では,プロンプトベース生成NLPモデルによる簡易かつ効果的なデータ拡張手法を提案し,既存の解釈と拡張データ間のROUGEスコアと構文・意味的類似性を評価する。
当社のChatGPTモデルによるアプローチは,他のすべての手法を超越し,Easy-Data AugmentationやBacktranslationといったベースラインの改善を実現しています。
より多くのトレーニングサンプルとバランスの取れたデータセットを生成するためにデータ拡張を導入し、改善されたFスコアとマシュー相関係数をそれぞれ13.11%と15.95%に向上させた。
関連論文リスト
- Data Augmentations for Improved (Large) Language Model Generalization [17.75815547057179]
本稿では,データの因果構造を知ることによって導かれる反ファクト的データ拡張を用いて,突発的特徴に対する介入をシミュレートすることを提案する。
この戦略は,ラベルが属性と突発的に相関しているような予測問題に適していることを示す。
論文 参考訳(メタデータ) (2023-10-19T14:59:25Z) - MedDiffusion: Boosting Health Risk Prediction via Diffusion-based Data
Augmentation [58.93221876843639]
本稿では,MedDiffusion という,エンドツーエンドの拡散に基づくリスク予測モデルを提案する。
トレーニング中に合成患者データを作成し、サンプルスペースを拡大することで、リスク予測性能を向上させる。
ステップワイズ・アテンション・メカニズムを用いて患者の来訪者間の隠れた関係を識別し、高品質なデータを生成する上で最も重要な情報をモデルが自動的に保持することを可能にする。
論文 参考訳(メタデータ) (2023-10-04T01:36:30Z) - Adversarial Word Dilution as Text Data Augmentation in Low-Resource
Regime [35.95241861664597]
本稿では,テキストデータ拡張として強烈な正の例を生成できる逆単語解法(AWD)を提案する。
テキストデータの増大という考え方は、未知語埋め込みと重み付けして強正語の埋め込みを減らすことである。
3つのベンチマークデータセットに関する実証研究により、AWDはより効果的なデータ拡張を生成でき、最先端のテキストデータ拡張手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-05-16T08:46:11Z) - Implicit Counterfactual Data Augmentation for Robust Learning [24.795542869249154]
本研究では, 突発的相関を除去し, 安定した予測を行うために, インプリシト・カウンセショナル・データ拡張法を提案する。
画像とテキストのデータセットをカバーする様々なバイアス付き学習シナリオで実験が行われてきた。
論文 参考訳(メタデータ) (2023-04-26T10:36:40Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z) - Generative Data Augmentation for Commonsense Reasoning [75.26876609249197]
G-DAUGCは、低リソース環境でより正確で堅牢な学習を実現することを目的とした、新しい生成データ拡張手法である。
G-DAUGCは、バックトランスレーションに基づく既存のデータ拡張手法を一貫して上回っている。
分析の結果,G-DAUGCは多種多様な流線型学習例を産出し,その選択と学習アプローチが性能向上に重要であることが示された。
論文 参考訳(メタデータ) (2020-04-24T06:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。