論文の概要: New Arabic Medical Dataset for Diseases Classification
- arxiv url: http://arxiv.org/abs/2106.15236v2
- Date: Wed, 30 Jun 2021 10:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 02:13:09.464821
- Title: New Arabic Medical Dataset for Diseases Classification
- Title(参考訳): 疾患分類のための新しいアラビア医療データセット
- Authors: Jaafar Hammoud, Aleksandra Vatian, Natalia Dobrenko, Nikolai
Vedernikov, Anatoly Shalyto, Natalia Gusarova
- Abstract要約: いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
- 参考スコア(独自算出の注目度): 55.41644538483948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Arabic language suffers from a great shortage of datasets suitable for
training deep learning models, and the existing ones include general
non-specialized classifications. In this work, we introduce a new Arab medical
dataset, which includes two thousand medical documents collected from several
Arabic medical websites, in addition to the Arab Medical Encyclopedia. The
dataset was built for the task of classifying texts and includes 10 classes
(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune,
Liver and Nephrological) diseases. Experiments on the dataset were performed by
fine-tuning three pre-trained models: BERT from Google, Arabert that based on
BERT with large Arabic corpus, and AraBioNER that based on Arabert with Arabic
medical corpus.
- Abstract(参考訳): アラビア語はディープラーニングモデルのトレーニングに適したデータセットが大幅に不足しており、既存の言語には一般的な非特殊分類が含まれている。
本研究では,アラブ医学百科事典に加え,複数のアラビア語医学ウェブサイトから収集された2千の医学文書を含む,新しいアラブ医学データセットを紹介する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)が含まれている。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
関連論文リスト
- ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.8109081066789847]
古典アラビア語は重要な時代であり、アラブ文化、哲学、科学文学の黄金時代を包含している。
我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。
ATHARデータセットは66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文 参考訳(メタデータ) (2024-07-29T09:45:34Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - Leveraging Corpus Metadata to Detect Template-based Translation: An Exploratory Case Study of the Egyptian Arabic Wikipedia Edition [0.0]
アラビア語ウィキペディアの3つの版、アラビア語ウィキペディア(AR)、エジプトアラビア語ウィキペディア(ARZ)、モロッコアラビア語ウィキペディア(ary)を研究している。
エジプト・アラビア語ウィキペディアで発生したテンプレート翻訳の問題を,これらのテンプレート翻訳記事とその特徴を識別することによって緩和することを目的としている。
論文 参考訳(メタデータ) (2024-03-31T05:14:38Z) - BiMediX: Bilingual Medical Mixture of Experts LLM [94.85518237963535]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - RuBioRoBERTa: a pre-trained biomedical language model for Russian
language biomedical text mining [117.56261821197741]
ロシア語生物医学テキストマイニングのためのBERTベースのモデルをいくつか提示する。
これらのモデルは、ロシアの生物医学領域で自由に利用できるテキストのコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2022-04-08T09:18:59Z) - A Deep CNN Architecture with Novel Pooling Layer Applied to Two Sudanese
Arabic Sentiment Datasets [1.1034493405536276]
2-class Sudanese Sentimentデータセットと3-class Sudanese Sentimentデータセットだ。
5つのCNN層と新しいプール層であるMMAからなるCNNアーキテクチャを提案する。
提案したモデルは、既存のサウジセンティメントデータセットと、85.55%と90.01%の精度でMSAホテルアラビアレビューデータセットに適用される。
論文 参考訳(メタデータ) (2022-01-29T21:33:28Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - AraDIC: Arabic Document Classification using Image-Based Character
Embeddings and Class-Balanced Loss [7.734726150561088]
本稿では,アラビア文書イメージベース分類器 (AraDIC) を新たに提案する。
AraDICは画像ベースの文字エンコーダと分類器から構成される。長期データ分散問題に対処するために、クラスバランス損失を用いてエンドツーエンドで訓練される。
我々の知る限りでは、アラビア文字分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークである。
論文 参考訳(メタデータ) (2020-06-20T14:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。