論文の概要: Medical Dataset Classification for Kurdish Short Text over Social Media
- arxiv url: http://arxiv.org/abs/2204.09660v1
- Date: Sat, 26 Mar 2022 22:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-24 16:42:38.314371
- Title: Medical Dataset Classification for Kurdish Short Text over Social Media
- Title(参考訳): ソーシャルメディアを用いたクルド語短文の医療データセット分類
- Authors: Ari M. Saeed, Shnya R. Hussein, Chro M. Ali, Tarik A. Rashid
- Abstract要約: データセットは6756のコメントで構成され、MKD(Medicical Kurdish dataset)を作成する。
サンプルは、異なるページの投稿(医学、ニュース、経済、教育、スポーツ)から集められたユーザーのコメントである。
- 参考スコア(独自算出の注目度): 1.462434043267217
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Facebook application is used as a resource for collecting the comments of
this dataset, The dataset consists of 6756 comments to create a Medical Kurdish
Dataset (MKD). The samples are comments of users, which are gathered from
different posts of pages (Medical, News, Economy, Education, and Sport). Six
steps as a preprocessing technique are performed on the raw dataset to clean
and remove noise in the comments by replacing characters. The comments (short
text) are labeled for positive class (medical comment) and negative class
(non-medical comment) as text classification. The percentage ratio of the
negative class is 55% while the positive class is 45%.
- Abstract(参考訳): Facebookアプリケーションは、このデータセットのコメント収集のリソースとして使用され、データセットは6756のコメントからなり、MKD(Medicical Kurdish Dataset)を作成する。
サンプルはユーザーのコメントで、さまざまな投稿(医学、ニュース、経済、教育、スポーツ)から集められている。
生データセット上でプリプロセッシング技術としての6つのステップを実行し、文字を置き換えてコメントのノイズをきれいに除去する。
コメント(短いテキスト)は、正のクラス(医学的コメント)と負のクラス(医学的コメント)をテキスト分類としてラベル付けする。
負のクラスの割合は55%であり、正のクラスは45%である。
関連論文リスト
- Evaluating D-MERIT of Partial-annotation on Information Retrieval [77.44452769932676]
検索モデルは、部分的に注釈付けされたデータセットでしばしば評価される。
部分的に注釈付けされたデータセットを評価に用いると歪んだ絵が描けることを示す。
論文 参考訳(メタデータ) (2024-06-23T08:24:08Z) - ThangDLU at #SMM4H 2024: Encoder-decoder models for classifying text data on social disorders in children and adolescents [49.00494558898933]
本稿では,#SMM4H (Social Media Mining for Health) 2024 Workshopのタスク3とタスク5への参加について述べる。
タスク3は、屋外環境が社会不安の症状に与える影響を議論するツイートを中心にした多クラス分類タスクである。
タスク5は、子供の医学的障害を報告しているツイートに焦点を当てたバイナリ分類タスクを含む。
BART-baseやT5-smallのような事前訓練されたエンコーダデコーダモデルからの転送学習を適用し、与えられたツイートの集合のラベルを同定した。
論文 参考訳(メタデータ) (2024-04-30T17:06:20Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - PCA: Semi-supervised Segmentation with Patch Confidence Adversarial
Training [52.895952593202054]
医用画像セグメンテーションのためのPatch Confidence Adrial Training (PCA) と呼ばれる半教師付き対向法を提案する。
PCAは各パッチの画素構造とコンテキスト情報を学習し、十分な勾配フィードバックを得る。
本手法は, 医用画像のセグメンテーションにおいて, 最先端の半教師付き手法より優れており, その有効性を示している。
論文 参考訳(メタデータ) (2022-07-24T07:45:47Z) - Improving Health Mentioning Classification of Tweets using Contrastive
Adversarial Training [6.586675643422952]
周辺単語による単語表現を学習し,テキスト中の絵文字を用いて分類結果の改善を支援する。
モデルの埋め込みを摂動することで逆例を生成し、クリーンで逆例のペアでモデルを訓練する。
実験では、BERT-Largeベースラインが1.0%、RoBERTa-Largeベースラインが0.6%、F1スコアが5.8%となっている。
論文 参考訳(メタデータ) (2022-03-03T18:20:51Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - An Amharic News Text classification Dataset [0.0]
6つのクラスに分類された50万以上のニュース記事からなるAmharicテキスト分類データセットの導入を目指しています。
このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。
論文 参考訳(メタデータ) (2021-03-10T16:36:39Z) - Stay on Topic, Please: Aligning User Comments to the Content of a News
Article [7.3203631241415055]
新たな記事ベースに投稿されたユーザコメントとその内容との整合性を分類する分類アルゴリズムを提案する。
このアライメントは、コンテンツ、議論のエンティティ、トピック間の類似性に基づいて、ユーザーコメントと記事とを一致させようとする。
分類作業の難易度を理解するために,人間のラベル付け性能を評価するためのユーザ調査を行う。
論文 参考訳(メタデータ) (2021-03-03T18:29:00Z) - Hate Speech detection in the Bengali language: A dataset and its
baseline evaluation [0.8793721044482612]
本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。
コメントはすべてYouTubeとFacebookのコメントセクションから収集され、7つのカテゴリに分類される。
合計50人の注釈家が各コメントに3回注釈を付け、多数決が最終注釈として採決された。
論文 参考訳(メタデータ) (2020-12-17T15:53:54Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Sentiment Analysis in Drug Reviews using Supervised Machine Learning
Algorithms [1.14219428942199]
我々は、テキスト形式でレビューされた様々な薬物のレビューを分析することを選んだ。
私たちは、"Birth Control"や"Depression"、"Pain"といった、最も一般的な条件でモデルをトレーニングしました。
我々の目的は主に、評価のクラスを予測する教師付き機械学習分類アルゴリズムを実装することであった。
論文 参考訳(メタデータ) (2020-03-21T20:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。