論文の概要: Detecting Depression in Thai Blog Posts: a Dataset and a Baseline
- arxiv url: http://arxiv.org/abs/2111.04574v1
- Date: Mon, 8 Nov 2021 15:36:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 20:53:41.772882
- Title: Detecting Depression in Thai Blog Posts: a Dataset and a Baseline
- Title(参考訳): タイのブログ投稿におけるうつ病の検出:データセットとベースライン
- Authors: Mika H\"am\"al\"ainen and Pattama Patpong and Khalid Alnajjar and Niko
Partanen and Jack Rueter
- Abstract要約: タイにおけるうつ病検出のための最初の公開コーパスを提示する。
私たちのコーパスは、いくつかのオンラインブログにおいて、専門家によるうつ病のケースによってコンパイルされます。
タイのBERTモデルを用いて77.53%の精度で抑うつを検知する。
- 参考スコア(独自算出の注目度): 0.9974630621313313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first openly available corpus for detecting depression in
Thai. Our corpus is compiled by expert verified cases of depression in several
online blogs. We experiment with two different LSTM based models and two
different BERT based models. We achieve a 77.53\% accuracy with a Thai BERT
model in detecting depression. This establishes a good baseline for future
researcher on the same corpus. Furthermore, we identify a need for Thai
embeddings that have been trained on a more varied corpus than Wikipedia. Our
corpus, code and trained models have been released openly on Zenodo.
- Abstract(参考訳): タイにおけるうつ病検出のための最初の公開コーパスを提示する。
我々のコーパスは、いくつかのオンラインブログに専門家によるうつ病のケースでまとめられている。
2つの異なるLSTMモデルと2つの異なるBERTモデルで実験を行った。
タイのBERTモデルを用いて,抑うつ検出における77.53\%の精度を実現する。
これは、将来の研究者が同じコーパスで良いベースラインを確立する。
さらに,wikipediaよりも多種多様なコーパスで訓練されたタイ語埋め込みの必要性も確認した。
私たちのコーパス、コード、トレーニングモデルがzenodoで公開されています。
関連論文リスト
- Enhancing Depressive Post Detection in Bangla: A Comparative Study of TF-IDF, BERT and FastText Embeddings [0.0]
本研究は,バングラにおける抑うつ的なソーシャルメディア投稿を識別する手法を提案する。
ドメインの専門家によって注釈付けされたこの研究で使用されるデータセットには、抑うつ的ポストと非抑うつ的ポストの両方が含まれている。
クラス不均衡の問題に対処するために,マイノリティクラスに対するランダムなオーバーサンプリングを利用した。
論文 参考訳(メタデータ) (2024-07-12T11:40:17Z) - A New Learning Paradigm for Foundation Model-based Remote Sensing Change
Detection [54.01158175996638]
変化検出(CD)は、土地被覆の動的過程を観察し解析するための重要な課題である。
本稿では,基盤モデルに基づくCD適応フレームワークであるBi-Temporal Adapter Network (BAN)を提案する。
論文 参考訳(メタデータ) (2023-12-02T15:57:17Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Depression detection in social media posts using affective and social
norm features [84.12658971655253]
ソーシャルメディア投稿からの抑うつ検出のための奥深いアーキテクチャを提案する。
我々は、後期融合方式を用いて、ポストとワードの敬称と道徳的特徴をアーキテクチャに組み込んだ。
提案された機能を含めると、両方の設定で最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-03-24T21:26:27Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - FreCDo: A Large Corpus for French Cross-Domain Dialect Identification [22.132457694021184]
本稿では,413,522のフランス語テキストサンプルからなるフランス語方言識別のための新しいコーパスを提案する。
トレーニング、検証、テストの分割は、異なるニュースウェブサイトから収集される。
これはフランスのクロスドメイン(FreCDo)の方言識別タスクにつながります。
論文 参考訳(メタデータ) (2022-12-15T10:32:29Z) - DECK: Behavioral Tests to Improve Interpretability and Generalizability
of BERT Models Detecting Depression from Text [4.269268432906194]
テキストからうつ病を正確に検出するモデルは、パンデミック後の精神疾患に対処するための重要なツールである。
BERTベースの分類器の有望な性能と市販の可用性は、このタスクの優れた候補となる。
DeCK(Depression ChecKlist)は、抑うつ特異的なモデル行動テストで、より優れた解釈性を実現する。
論文 参考訳(メタデータ) (2022-09-12T14:39:46Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - WeTS: A Benchmark for Translation Suggestion [32.10692757420455]
我々はemphWeTSと呼ばれる翻訳提案(TS)のためのベンチマークデータセットを作成する。
また,TSの性能を大幅に向上できる合成コーパスを生成するための新しい手法を提案する。
我々のモデルは、ドイツ語、ドイツ語、中国語、英語、中国語の4つの翻訳方向について、ステートオフ・ザ・アート(SOTA)の結果を達成する。
論文 参考訳(メタデータ) (2021-10-11T10:52:17Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Similarity Detection Pipeline for Crawling a Topic Related Fake News
Corpus [0.0]
本稿では,偽ニュース検出のためのドイツ語トピック関連コーパスを提案する。
同様のニュース記事をクロールするためのパイプラインも開発しています。
第3の貢献として、偽ニュースを検出するための異なる学習実験を実施しました。
論文 参考訳(メタデータ) (2020-09-28T14:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。