論文の概要: New Arabic Medical Dataset for Diseases Classification
- arxiv url: http://arxiv.org/abs/2106.15236v2
- Date: Wed, 30 Jun 2021 10:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 02:13:09.464821
- Title: New Arabic Medical Dataset for Diseases Classification
- Title(参考訳): 疾患分類のための新しいアラビア医療データセット
- Authors: Jaafar Hammoud, Aleksandra Vatian, Natalia Dobrenko, Nikolai
Vedernikov, Anatoly Shalyto, Natalia Gusarova
- Abstract要約: いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
- 参考スコア(独自算出の注目度): 55.41644538483948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Arabic language suffers from a great shortage of datasets suitable for
training deep learning models, and the existing ones include general
non-specialized classifications. In this work, we introduce a new Arab medical
dataset, which includes two thousand medical documents collected from several
Arabic medical websites, in addition to the Arab Medical Encyclopedia. The
dataset was built for the task of classifying texts and includes 10 classes
(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune,
Liver and Nephrological) diseases. Experiments on the dataset were performed by
fine-tuning three pre-trained models: BERT from Google, Arabert that based on
BERT with large Arabic corpus, and AraBioNER that based on Arabert with Arabic
medical corpus.
- Abstract(参考訳): アラビア語はディープラーニングモデルのトレーニングに適したデータセットが大幅に不足しており、既存の言語には一般的な非特殊分類が含まれている。
本研究では,アラブ医学百科事典に加え,複数のアラビア語医学ウェブサイトから収集された2千の医学文書を含む,新しいアラブ医学データセットを紹介する。
データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)が含まれている。
データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
関連論文リスト
- BiMediX: Bilingual Medical Mixture of Experts LLM [94.85518237963535]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。
我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。
そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文 参考訳(メタデータ) (2024-02-20T18:59:26Z) - Diversifying Knowledge Enhancement of Biomedical Language Models using
Adapter Modules and Knowledge Graphs [54.223394825528665]
我々は、軽量なアダプターモジュールを用いて、構造化された生体医学的知識を事前訓練された言語モデルに注入するアプローチを開発した。
バイオメディカル知識システムUMLSと新しいバイオケミカルOntoChemの2つの大きなKGと、PubMedBERTとBioLinkBERTの2つの著名なバイオメディカルPLMを使用している。
計算能力の要件を低く保ちながら,本手法がいくつかの事例において性能改善につながることを示す。
論文 参考訳(メタデータ) (2023-12-21T14:26:57Z) - HealthE: Classifying Entities in Online Textual Health Advice [0.0]
我々は、6,756の健康アドバイスからなる新しい注釈付きデータセットHealthEをリリースした。
HealthEは既存のNERコーパスに比べて、より粒度の細かいラベル空間を持っている。
我々は、エンティティクラス分類におけるテキストコンテキストパターンを活用する、新しいヘルスエンティティ分類モデルEP S-BERTを導入する。
論文 参考訳(メタデータ) (2022-10-06T23:18:24Z) - RuBioRoBERTa: a pre-trained biomedical language model for Russian
language biomedical text mining [117.56261821197741]
ロシア語生物医学テキストマイニングのためのBERTベースのモデルをいくつか提示する。
これらのモデルは、ロシアの生物医学領域で自由に利用できるテキストのコーパスで事前訓練されている。
論文 参考訳(メタデータ) (2022-04-08T09:18:59Z) - A Deep CNN Architecture with Novel Pooling Layer Applied to Two Sudanese
Arabic Sentiment Datasets [1.1034493405536276]
2-class Sudanese Sentimentデータセットと3-class Sudanese Sentimentデータセットだ。
5つのCNN層と新しいプール層であるMMAからなるCNNアーキテクチャを提案する。
提案したモデルは、既存のサウジセンティメントデータセットと、85.55%と90.01%の精度でMSAホテルアラビアレビューデータセットに適用される。
論文 参考訳(メタデータ) (2022-01-29T21:33:28Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - A Benchmark Arabic Dataset for Commonsense Explanation [0.6091702876917281]
本稿では,コモンセンス説明のためのベンチマークアラビアデータセットを提案する。
データセットはアラビア語の文で構成されており、その文がなぜ間違っているのかを説明する3つの選択肢があります。
論文 参考訳(メタデータ) (2020-12-18T14:07:10Z) - Predicting Clinical Diagnosis from Patients Electronic Health Records
Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。
本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。
約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文 参考訳(メタデータ) (2020-07-15T09:22:55Z) - AraDIC: Arabic Document Classification using Image-Based Character
Embeddings and Class-Balanced Loss [7.734726150561088]
本稿では,アラビア文書イメージベース分類器 (AraDIC) を新たに提案する。
AraDICは画像ベースの文字エンコーダと分類器から構成される。長期データ分散問題に対処するために、クラスバランス損失を用いてエンドツーエンドで訓練される。
我々の知る限りでは、アラビア文字分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークである。
論文 参考訳(メタデータ) (2020-06-20T14:25:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。