論文の概要: Chinese MentalBERT: Domain-Adaptive Pre-training on Social Media for
Chinese Mental Health Text Analysis
- arxiv url: http://arxiv.org/abs/2402.09151v1
- Date: Wed, 14 Feb 2024 13:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 15:34:37.506687
- Title: Chinese MentalBERT: Domain-Adaptive Pre-training on Social Media for
Chinese Mental Health Text Analysis
- Title(参考訳): 中国のメンタルバー:中国メンタルヘルステキスト分析のためのソーシャルメディアにおけるドメイン適応型プレトレーニング
- Authors: Wei Zhai, Hongzhi Qi, Qing Zhao, Jianqiang Li, Ziqi Wang, Han Wang,
Bing Xiang Yang, Guanghui Fu
- Abstract要約: われわれは中国のソーシャルメディアプラットフォームから膨大なデータセットを収集し、それを公開データセットで強化した。
心理学的テキスト分析へのモデルの適用性を高めるため,プレトレーニングマスキング機構に心理的レキシコンを組み込んだ。
既存の中国語モデルに基づいて,心理学領域に特化したモデルを開発するための適応訓練を行った。
- 参考スコア(独自算出の注目度): 20.155291997950805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the current environment, psychological issues are prevalent and
widespread, with social media serving as a key outlet for individuals to share
their feelings. This results in the generation of vast quantities of data
daily, where negative emotions have the potential to precipitate crisis
situations. There is a recognized need for models capable of efficient
analysis. While pre-trained language models have demonstrated their
effectiveness broadly, there's a noticeable gap in pre-trained models tailored
for specialized domains like psychology. To address this, we have collected a
huge dataset from Chinese social media platforms and enriched it with publicly
available datasets to create a comprehensive database encompassing 3.36 million
text entries. To enhance the model's applicability to psychological text
analysis, we integrated psychological lexicons into the pre-training masking
mechanism. Building on an existing Chinese language model, we performed
adaptive training to develop a model specialized for the psychological domain.
We assessed our model's effectiveness across four public benchmarks, where it
not only surpassed the performance of standard pre-trained models but also
showed a inclination for making psychologically relevant predictions. Due to
concerns regarding data privacy, the dataset will not be made publicly
available. However, we have made the pre-trained models and codes publicly
accessible to the community via:
https://github.com/zwzzzQAQ/Chinese-MentalBERT.
- Abstract(参考訳): 現在の環境では、心理的な問題が広く広まり、ソーシャルメディアが個人の感情を共有するための重要な出口となっている。
これにより、毎日大量のデータが生成され、負の感情が危機的状況を引き起こす可能性がある。
効率的な分析が可能なモデルの必要性は認識されている。
事前訓練された言語モデルは、その効果を広く証明しているが、心理学のような専門分野に適した事前訓練されたモデルには顕著なギャップがある。
これに対処するために、中国のソーシャルメディアプラットフォームから巨大なデータセットを収集し、公開データセットで強化し、3億3600万のテキストエントリを含む包括的なデータベースを作成しました。
モデルの心理的テキスト解析への適用性を高めるため,事前学習マスキング機構に心理的レキシコンを組み込んだ。
既存の中国語モデルに基づいて,心理領域に特化したモデルを開発するための適応訓練を行った。
4つの公開ベンチマークでモデルの有効性を評価し,標準的な事前学習モデルの性能を上回るだけでなく,心理的に関連する予測を行う傾向を示した。
データプライバシーに関する懸念のため、データセットは公開されない。
しかし、トレーニング済みのモデルとコードは、https://github.com/zwzzzqaq/ chinese-mentalbert.com/でコミュニティに公開されています。
関連論文リスト
- Decoding the Silent Majority: Inducing Belief Augmented Social Graph
with Large Language Model for Response Forecasting [74.68371461260946]
SocialSenseは、既存のソーシャルネットワーク上に信念中心のグラフを誘導するフレームワークであり、グラフベースの伝播によって社会的ダイナミクスを捉える。
本手法は,ゼロショット設定と教師あり設定の両方に対する実験的な評価において,既存の最先端技術を超えている。
論文 参考訳(メタデータ) (2023-10-20T06:17:02Z) - Supervised Learning and Large Language Model Benchmarks on Mental Health
Datasets: Cognitive Distortions and Suicidal Risks in Chinese Social Media [24.130206803192635]
中国のソーシャルメディアから新たに2つの注釈付きデータセットを導入し,認知的歪みと自殺リスク分類に着目した。
大きな言語モデルの能力を評価するために、ゼロショット、少数ショット、微調整という3つの戦略を採用しました。
GPT-4は一貫して強い結果を示したが, GPT-3.5は微調整後, 自殺リスク分類が著しく改善した。
論文 参考訳(メタデータ) (2023-09-07T08:50:46Z) - CBBQ: A Chinese Bias Benchmark Dataset Curated with Human-AI
Collaboration for Large Language Models [52.25049362267279]
本稿では,人的専門家と生成言語モデルによって共同で構築された100万以上の質問からなる中国語バイアスベンチマークデータセットを提案する。
データセットのテストインスタンスは、手作業による厳格な品質管理を備えた3K以上の高品質テンプレートから自動的に抽出される。
大規模な実験により、データセットがモデルバイアスを検出することの有効性が実証された。
論文 参考訳(メタデータ) (2023-06-28T14:14:44Z) - Measuring the Effect of Influential Messages on Varying Personas [67.1149173905004]
我々は、ニュースメッセージを見る際にペルソナが持つ可能性のある応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。
提案課題は,モデルにパーソナライズを導入するだけでなく,各応答の感情極性と強度も予測する。
これにより、ペルソナの精神状態に関するより正確で包括的な推測が可能になる。
論文 参考訳(メタデータ) (2023-05-25T21:01:00Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Pushing on Personality Detection from Verbal Behavior: A Transformer
Meets Text Contours of Psycholinguistic Features [27.799032561722893]
テキストデータから人格特性を予測する上で,2つの大きな改善点を報告する。
精神言語学的特徴のテキスト内分布を学習した,事前学習型トランスフォーマー言語モデルBERTと双方向長短期記憶ネットワークを統合した。
2つのベンチマークデータセット上に構築したモデルの性能を評価する。
論文 参考訳(メタデータ) (2022-04-10T08:08:46Z) - MentalBERT: Publicly Available Pretrained Language Models for Mental
Healthcare [29.14340469459733]
精神障害の早期発見と社会的コンテンツからの自殺観念は、効果的な社会的介入の潜在的方法となる。
事前訓練された文脈言語表現の最近の進歩は、いくつかのドメイン固有の事前訓練されたモデルの開発を促進している。
本稿では、メンタルヘルス研究コミュニティにおける機械学習の恩恵を受けるために、トレーニング済みの言語モデルであるMentalBERTとMentalRoBERTaをトレーニング、リリースする。
論文 参考訳(メタデータ) (2021-10-29T08:36:47Z) - Learning Language and Multimodal Privacy-Preserving Markers of Mood from
Mobile Data [74.60507696087966]
精神状態は、先進医療に共通する国でも診断されていない。
人間の行動を監視するための有望なデータソースのひとつは、日々のスマートフォンの利用だ。
本研究では,自殺行動のリスクが高い青少年集団の移動行動のデータセットを用いて,日常生活の行動マーカーについて検討した。
論文 参考訳(メタデータ) (2021-06-24T17:46:03Z) - Personality Trait Detection Using Bagged SVM over BERT Word Embedding
Ensembles [10.425280599592865]
本稿では,テキストからの人格自動検出のための新しい深層学習手法を提案する。
我々は、自然言語理解における最先端技術、すなわちBERT言語モデルを活用して、文脈化された単語埋め込みを抽出する。
我々のモデルは、従来の最先端技術よりも1.04%優れており、同時に、トレーニングの計算効率も大幅に向上している。
論文 参考訳(メタデータ) (2020-10-03T09:25:51Z) - Cost-effective Selection of Pretraining Data: A Case Study of
Pretraining BERT on Social Media [18.21146856681127]
領域固有のBERTモデルに関する最近の研究は、ドメイン内データ上でモデルが事前訓練された場合、下流タスクの有効性を向上させることができることを示している。
ツイートとフォーラムのテキストにそれぞれ2つのモデルを事前学習し、これらの2つのリソースの有効性を実証的に示す。
さらに,ドメイン内事前学習データに類似度を付与する方法について検討する。
論文 参考訳(メタデータ) (2020-10-02T18:06:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。