論文の概要: CARMA: Comprehensive Automatically-annotated Reddit Mental Health Dataset for Arabic
- arxiv url: http://arxiv.org/abs/2511.03102v1
- Date: Wed, 05 Nov 2025 01:17:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.28627
- Title: CARMA: Comprehensive Automatically-annotated Reddit Mental Health Dataset for Arabic
- Title(参考訳): CARMA: 自動化されたRedditのメンタルヘルスデータセットをアラビア語でまとめる
- Authors: Saad Mankarious, Ayah Zirikly,
- Abstract要約: CARMAはアラビア語 Reddit 投稿の大規模なデータセットとして初めて自動注釈付けされたものだ。
このデータセットは不安、自閉症、抑うつなど6つのメンタルヘルス状態とコントロールグループを含んでいる。
本研究では,ユーザ間の語彙的・意味的差異を質的・定量的に分析し,特定の精神状態の言語マーカーについて考察する。
- 参考スコア(独自算出の注目度): 1.3320917259299652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mental health disorders affect millions worldwide, yet early detection remains a major challenge, particularly for Arabic-speaking populations where resources are limited and mental health discourse is often discouraged due to cultural stigma. While substantial research has focused on English-language mental health detection, Arabic remains significantly underexplored, partly due to the scarcity of annotated datasets. We present CARMA, the first automatically annotated large-scale dataset of Arabic Reddit posts. The dataset encompasses six mental health conditions, such as Anxiety, Autism, and Depression, and a control group. CARMA surpasses existing resources in both scale and diversity. We conduct qualitative and quantitative analyses of lexical and semantic differences between users, providing insights into the linguistic markers of specific mental health conditions. To demonstrate the dataset's potential for further mental health analysis, we perform classification experiments using a range of models, from shallow classifiers to large language models. Our results highlight the promise of advancing mental health detection in underrepresented languages such as Arabic.
- Abstract(参考訳): メンタルヘルス障害は世界中の何百万もの人に影響を与えているが、早期発見は特にアラビア語話者にとって大きな課題であり、資源が限られ、メンタルヘルスの議論が文化の汚点によってしばしば妨げられる。
かなりの研究は英語のメンタルヘルスの検出に焦点が当てられているが、アラビア語は注釈付きデータセットが不足していることもあって、かなり過小評価されている。
CARMAはアラビア語 Reddit 投稿の大規模なデータセットとして初めて自動注釈付けされたものだ。
このデータセットは不安、自閉症、抑うつなど6つのメンタルヘルス状態とコントロールグループを含んでいる。
CARMAはスケールと多様性の両方で既存のリソースを上回っている。
本研究では,ユーザ間の語彙的・意味的差異を質的・定量的に分析し,特定の精神状態の言語マーカーについて考察する。
よりメンタルな健康分析を行うためのデータセットの可能性を示すために、浅い分類器から大きな言語モデルまで、さまざまなモデルを用いて分類実験を行う。
結果から,アラビア語などの表現不足言語におけるメンタルヘルス検出の進展が示唆された。
関連論文リスト
- A Comprehensive Review of Datasets for Clinical Mental Health AI Systems [55.67299586253951]
本稿では,AIを活用した臨床アシスタントの訓練・開発に関連する臨床精神保健データセットの総合的調査を行う。
本調査では, 縦断データの欠如, 文化・言語表現の制限, 一貫性のない収集・注釈基準, 合成データのモダリティの欠如など, 重要なギャップを明らかにした。
論文 参考訳(メタデータ) (2025-08-13T13:42:35Z) - A Survey on Multilingual Mental Disorders Detection from Social Media Data [19.167802086240293]
本研究は,多言語ソーシャルメディアデータを用いたメンタルヘルス障害の検出に関する第1回調査である。
オンライン言語パターンと自己開示行動に影響を与える文化的ニュアンスについて検討する。
メンタルヘルススクリーニングのためのNLPモデルの開発に使用できる多言語データ収集の包括的リストを提供する。
論文 参考訳(メタデータ) (2025-05-21T14:15:54Z) - MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders [59.515827458631975]
メンタルヘルス障害は世界で最も深刻な病気の1つである。
プライバシーに関する懸念は、パーソナライズされた治療データのアクセシビリティを制限する。
MentalArenaは、言語モデルをトレーニングするためのセルフプレイフレームワークである。
論文 参考訳(メタデータ) (2024-10-09T13:06:40Z) - Building Multilingual Datasets for Predicting Mental Health Severity through LLMs: Prospects and Challenges [3.0382033111760585]
大規模言語モデル(LLM)は、メンタルヘルス支援システムを含む様々な医療分野に統合されつつある。
本稿では、広く使われているメンタルヘルスデータセットを英語から6言語に翻訳した新しい多言語適応法を提案する。
このデータセットは、精神状態を検出し、複数の言語にわたる重症度を評価する上で、LLMのパフォーマンスを総合的に評価することを可能にする。
論文 参考訳(メタデータ) (2024-09-25T22:14:34Z) - MentalQA: An Annotated Arabic Corpus for Questions and Answers of Mental Healthcare [0.1638581561083717]
MentalQAは、会話型Q&A(QA)インタラクションを特徴とする、アラビア語の新しいデータセットである。
データは質問に答える医療プラットフォームから収集された。
MentalQAは、メンタルヘルスの専門家や情報を求める個人を支援するアラビアのテキストマイニングツールを開発するための貴重な基盤を提供する。
論文 参考訳(メタデータ) (2024-05-21T09:16:38Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - DEPAC: a Corpus for Depression and Anxiety Detection from Speech [3.2154432166999465]
本稿では、うつ病と不安スクリーニングツールの確立したしきい値に基づいてラベル付けされた、心的苦痛分析オーディオデータセットDEPACを紹介する。
この大きなデータセットは、個人ごとの複数の音声タスクと、関連する人口統計情報から構成される。
人間の音声における精神疾患の徴候の同定に有効な,手作業による音響的特徴と言語的特徴からなる特徴セットを提案する。
論文 参考訳(メタデータ) (2023-06-20T12:21:06Z) - Learning Language and Multimodal Privacy-Preserving Markers of Mood from
Mobile Data [74.60507696087966]
精神状態は、先進医療に共通する国でも診断されていない。
人間の行動を監視するための有望なデータソースのひとつは、日々のスマートフォンの利用だ。
本研究では,自殺行動のリスクが高い青少年集団の移動行動のデータセットを用いて,日常生活の行動マーカーについて検討した。
論文 参考訳(メタデータ) (2021-06-24T17:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。