論文の概要: Medical Dataset Classification for Kurdish Short Text over Social Media
- arxiv url: http://arxiv.org/abs/2204.09660v1
- Date: Sat, 26 Mar 2022 22:11:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-24 16:42:38.314371
- Title: Medical Dataset Classification for Kurdish Short Text over Social Media
- Title(参考訳): ソーシャルメディアを用いたクルド語短文の医療データセット分類
- Authors: Ari M. Saeed, Shnya R. Hussein, Chro M. Ali, Tarik A. Rashid
- Abstract要約: データセットは6756のコメントで構成され、MKD(Medicical Kurdish dataset)を作成する。
サンプルは、異なるページの投稿(医学、ニュース、経済、教育、スポーツ)から集められたユーザーのコメントである。
- 参考スコア(独自算出の注目度): 1.462434043267217
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Facebook application is used as a resource for collecting the comments of
this dataset, The dataset consists of 6756 comments to create a Medical Kurdish
Dataset (MKD). The samples are comments of users, which are gathered from
different posts of pages (Medical, News, Economy, Education, and Sport). Six
steps as a preprocessing technique are performed on the raw dataset to clean
and remove noise in the comments by replacing characters. The comments (short
text) are labeled for positive class (medical comment) and negative class
(non-medical comment) as text classification. The percentage ratio of the
negative class is 55% while the positive class is 45%.
- Abstract(参考訳): Facebookアプリケーションは、このデータセットのコメント収集のリソースとして使用され、データセットは6756のコメントからなり、MKD(Medicical Kurdish Dataset)を作成する。
サンプルはユーザーのコメントで、さまざまな投稿(医学、ニュース、経済、教育、スポーツ)から集められている。
生データセット上でプリプロセッシング技術としての6つのステップを実行し、文字を置き換えてコメントのノイズをきれいに除去する。
コメント(短いテキスト)は、正のクラス(医学的コメント)と負のクラス(医学的コメント)をテキスト分類としてラベル付けする。
負のクラスの割合は55%であり、正のクラスは45%である。
関連論文リスト
- Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - PCA: Semi-supervised Segmentation with Patch Confidence Adversarial
Training [52.895952593202054]
医用画像セグメンテーションのためのPatch Confidence Adrial Training (PCA) と呼ばれる半教師付き対向法を提案する。
PCAは各パッチの画素構造とコンテキスト情報を学習し、十分な勾配フィードバックを得る。
本手法は, 医用画像のセグメンテーションにおいて, 最先端の半教師付き手法より優れており, その有効性を示している。
論文 参考訳(メタデータ) (2022-07-24T07:45:47Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z) - Improving Health Mentioning Classification of Tweets using Contrastive
Adversarial Training [6.586675643422952]
周辺単語による単語表現を学習し,テキスト中の絵文字を用いて分類結果の改善を支援する。
モデルの埋め込みを摂動することで逆例を生成し、クリーンで逆例のペアでモデルを訓練する。
実験では、BERT-Largeベースラインが1.0%、RoBERTa-Largeベースラインが0.6%、F1スコアが5.8%となっている。
論文 参考訳(メタデータ) (2022-03-03T18:20:51Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - An Amharic News Text classification Dataset [0.0]
6つのクラスに分類された50万以上のニュース記事からなるAmharicテキスト分類データセットの導入を目指しています。
このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。
論文 参考訳(メタデータ) (2021-03-10T16:36:39Z) - Stay on Topic, Please: Aligning User Comments to the Content of a News
Article [7.3203631241415055]
新たな記事ベースに投稿されたユーザコメントとその内容との整合性を分類する分類アルゴリズムを提案する。
このアライメントは、コンテンツ、議論のエンティティ、トピック間の類似性に基づいて、ユーザーコメントと記事とを一致させようとする。
分類作業の難易度を理解するために,人間のラベル付け性能を評価するためのユーザ調査を行う。
論文 参考訳(メタデータ) (2021-03-03T18:29:00Z) - Hate Speech detection in the Bengali language: A dataset and its
baseline evaluation [0.8793721044482612]
本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。
コメントはすべてYouTubeとFacebookのコメントセクションから収集され、7つのカテゴリに分類される。
合計50人の注釈家が各コメントに3回注釈を付け、多数決が最終注釈として採決された。
論文 参考訳(メタデータ) (2020-12-17T15:53:54Z) - Trawling for Trolling: A Dataset [56.1778095945542]
攻撃的コンテンツのサブカテゴリとしてトロリングをモデル化するデータセットを提案する。
データセットには12,490のサンプルがあり、5つのクラスに分かれている。
論文 参考訳(メタデータ) (2020-08-02T17:23:55Z) - Sentiment Analysis in Drug Reviews using Supervised Machine Learning
Algorithms [1.14219428942199]
我々は、テキスト形式でレビューされた様々な薬物のレビューを分析することを選んだ。
私たちは、"Birth Control"や"Depression"、"Pain"といった、最も一般的な条件でモデルをトレーニングしました。
我々の目的は主に、評価のクラスを予測する教師付き機械学習分類アルゴリズムを実装することであった。
論文 参考訳(メタデータ) (2020-03-21T20:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。