論文の概要: MindSET: Advancing Mental Health Benchmarking through Large-Scale Social Media Data
- arxiv url: http://arxiv.org/abs/2511.20672v1
- Date: Fri, 14 Nov 2025 16:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.323402
- Title: MindSET: Advancing Mental Health Benchmarking through Large-Scale Social Media Data
- Title(参考訳): MindSET: 大規模ソーシャルメディアデータによるメンタルヘルスベンチマークの改善
- Authors: Saad Mankarious, Ayah Zirikly, Daniel Wiechmann, Elma Kerz, Edward Kempa, Yu Qiao,
- Abstract要約: Reddit から収集した新たなベンチマークデータセット textbfMindSET について報告する。
注釈付きデータセットには、以前のベンチマークの2倍以上の大きさの7つのメンタルヘルス条件にわたる textbf13M アノテーション付きポストが含まれている。
- 参考スコア(独自算出の注目度): 29.110680511845327
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Social media data has become a vital resource for studying mental health, offering real-time insights into thoughts, emotions, and behaviors that traditional methods often miss. Progress in this area has been facilitated by benchmark datasets for mental health analysis; however, most existing benchmarks have become outdated due to limited data availability, inadequate cleaning, and the inherently diverse nature of social media content (e.g., multilingual and harmful material). We present a new benchmark dataset, \textbf{MindSET}, curated from Reddit using self-reported diagnoses to address these limitations. The annotated dataset contains over \textbf{13M} annotated posts across seven mental health conditions, more than twice the size of previous benchmarks. To ensure data quality, we applied rigorous preprocessing steps, including language filtering, and removal of Not Safe for Work (NSFW) and duplicate content. We further performed a linguistic analysis using LIWC to examine psychological term frequencies across the eight groups represented in the dataset. To demonstrate the dataset utility, we conducted binary classification experiments for diagnosis detection using both fine-tuned language models and Bag-of-Words (BoW) features. Models trained on MindSET consistently outperformed those trained on previous benchmarks, achieving up to an \textbf{18-point} improvement in F1 for Autism detection. Overall, MindSET provides a robust foundation for researchers exploring the intersection of social media and mental health, supporting both early risk detection and deeper analysis of emerging psychological trends.
- Abstract(参考訳): ソーシャルメディアデータはメンタルヘルスを研究する上で重要なリソースとなり、伝統的な方法がしばしば見逃す思考、感情、行動に対するリアルタイムな洞察を提供する。
この領域の進歩は、メンタルヘルス分析のためのベンチマークデータセットによって促進されてきたが、既存のベンチマークのほとんどは、データ可用性の制限、不十分なクリーニング、および本質的に多様なソーシャルメディアコンテンツ(例えば、多言語および有害物質)の性質のために時代遅れになっている。
これらの制約に対処するために、自己報告診断を用いてRedditからキュレートされた新しいベンチマークデータセットである \textbf{MindSET} を提案する。
注釈付きデータセットには、以前のベンチマークの2倍以上の大きさの7つのメンタルヘルス条件にわたる、‘textbf{13M}アノテーション付きポストが含まれている。
データ品質を確保するため,言語フィルタリングやNot Safe for Work(NSFW)の削除,重複コンテンツの削除など,厳密な事前処理手順を適用した。
さらに、LIWCを用いた言語分析を行い、データセットに表される8つのグループにわたる心理的用語頻度について検討した。
データセットの有用性を実証するために、細調整言語モデルとBag-of-Words(BoW)機能の両方を用いて診断検出のためのバイナリ分類実験を行った。
MindSETでトレーニングされたモデルは、前回のベンチマークでトレーニングされたモデルよりも一貫して優れており、自閉症検出のためのF1の「textbf{18-point}」の改善が達成された。
全体として、MindSETは、ソーシャルメディアとメンタルヘルスの交差点を探索する研究者のための堅牢な基盤を提供し、早期のリスク検出と、新たな心理学的傾向のより深い分析をサポートする。
関連論文リスト
- MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。
MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文 参考訳(メタデータ) (2025-06-04T09:18:25Z) - Early Detection of Mental Health Issues Using Social Media Posts [0.0]
Redditのようなソーシャルメディアプラットフォームは、ユーザー生成コンテンツの豊富なソースを表している。
メンタルヘルス危機の早期発見に言語的特徴と時間的特徴を統合したマルチモーダルディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-06T23:08:08Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Mental Health Diagnosis in the Digital Age: Harnessing Sentiment
Analysis on Social Media Platforms upon Ultra-Sparse Feature Content [3.6195994708545016]
3次元構造を持つ新しい意味的特徴前処理手法を提案する。
強化されたセマンティック機能により、精神障害を予測および分類するために機械学習モデルを訓練する。
提案手法は,7つのベンチマークモデルと比較して,大幅な性能向上を示した。
論文 参考訳(メタデータ) (2023-11-09T00:15:06Z) - MentaLLaMA: Interpretable Mental Health Analysis on Social Media with
Large Language Models [28.62967557368565]
ソーシャルメディア上に,最初のマルチタスクおよびマルチソース解釈可能なメンタルヘルスインストラクションデータセットを構築した。
専門家が作成した数発のプロンプトとラベルを収集し,ChatGPTをプロンプトし,その応答から説明を得る。
IMHIデータセットとLLaMA2ファンデーションモデルに基づいて、メンタルヘルス分析のための最初のオープンソースLLMシリーズであるMentalLLaMAを訓練する。
論文 参考訳(メタデータ) (2023-09-24T06:46:08Z) - Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。
新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。
提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文 参考訳(メタデータ) (2023-08-23T14:18:44Z) - Learning Language and Multimodal Privacy-Preserving Markers of Mood from
Mobile Data [74.60507696087966]
精神状態は、先進医療に共通する国でも診断されていない。
人間の行動を監視するための有望なデータソースのひとつは、日々のスマートフォンの利用だ。
本研究では,自殺行動のリスクが高い青少年集団の移動行動のデータセットを用いて,日常生活の行動マーカーについて検討した。
論文 参考訳(メタデータ) (2021-06-24T17:46:03Z) - MET: Multimodal Perception of Engagement for Telehealth [52.54282887530756]
ビデオから人間のエンゲージメントレベルを知覚する学習ベースアルゴリズムMETを提案する。
我々はメンタルヘルス患者のエンゲージメント検出のための新しいデータセットMEDICAをリリースした。
論文 参考訳(メタデータ) (2020-11-17T15:18:38Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。