Fugu-MT 論文翻訳(概要): New Arabic Medical Dataset for Diseases Classification

論文の概要: New Arabic Medical Dataset for Diseases Classification

arxiv url: http://arxiv.org/abs/2106.15236v2
Date: Wed, 30 Jun 2021 10:45:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-02 02:13:09.464821
Title: New Arabic Medical Dataset for Diseases Classification
Title（参考訳）: 疾患分類のための新しいアラビア医療データセット
Authors: Jaafar Hammoud, Aleksandra Vatian, Natalia Dobrenko, Nikolai Vedernikov, Anatoly Shalyto, Natalia Gusarova
Abstract要約: いくつかのアラブの医療ウェブサイトから収集された2000の医療資料を含む、アラブの医療データセットを新たに導入する。データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)を含んでいる。データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。
参考スコア（独自算出の注目度）: 55.41644538483948
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Arabic language suffers from a great shortage of datasets suitable for training deep learning models, and the existing ones include general non-specialized classifications. In this work, we introduce a new Arab medical dataset, which includes two thousand medical documents collected from several Arabic medical websites, in addition to the Arab Medical Encyclopedia. The dataset was built for the task of classifying texts and includes 10 classes (Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver and Nephrological) diseases. Experiments on the dataset were performed by fine-tuning three pre-trained models: BERT from Google, Arabert that based on BERT with large Arabic corpus, and AraBioNER that based on Arabert with Arabic medical corpus.
Abstract（参考訳）: アラビア語はディープラーニングモデルのトレーニングに適したデータセットが大幅に不足しており、既存の言語には一般的な非特殊分類が含まれている。本研究では,アラブ医学百科事典に加え,複数のアラビア語医学ウェブサイトから収集された2千の医学文書を含む,新しいアラブ医学データセットを紹介する。データセットはテキストの分類作業のために構築され、10つのクラス(Blood, Bone, Cardiovascular, Ear, Endocrine, Eye, Gastrointestinal, Immune, Liver, Nephrological)が含まれている。データセットの実験は、GoogleのBERT、大きなアラビアのコーパスを持つBERTに基づくアラビアト、アラビアの医療コーパスをベースとしたAraBioNERの3つの事前トレーニングモデルによって行われた。

関連論文リスト

ADMEDTAGGER: an annotation framework for distillation of expert knowledge for the Polish medical language [0.0]
この作業は、ADMEDVOICEと呼ばれるより大きなプロジェクトの一部です。 5つの臨床カテゴリを表す医療用テキストの広範なコーパスを収集した。我々はこのコーパスに注釈をつけるために多言語Llama3.1モデルを使用した。
論文参考訳（メタデータ） (2025-12-27T10:00:52Z)
An Ensemble Classification Approach in A Multi-Layered Large Language Model Framework for Disease Prediction [0.4666493857924357]
社会的遠隔医療は、患者が症状を投稿し、遠隔で医療相談に参加することを可能にすることで、医療において顕著な進歩を遂げてきた。ユーザーはしばしばソーシャルメディアやオンライン健康プラットフォームに症状を投稿し、医療データの巨大なリポジトリを作成する。大規模言語モデル(LLM)は、複雑な医療テキストを処理する上で強力な能力を示している。
論文参考訳（メタデータ） (2025-09-02T15:53:51Z)
Leveraging Online Data to Enhance Medical Knowledge in a Small Persian Language Model [1.4843690728082002]
本研究では、アクセス可能なオンラインデータを活用することで、小規模言語モデルにおける医療知識の強化について検討する。我々は、キュレートされたデータを用いてベースラインモデルを微調整し、その医療的知識を改善した。ベンチマーク評価により, 微調整モデルにより, 医療質問応答の精度が向上することが示された。
論文参考訳（メタデータ） (2025-05-21T20:30:47Z)
MedArabiQ: Benchmarking Large Language Models on Arabic Medical Tasks [7.822971505079421]
本研究は、7つのアラビア医療タスクからなる新しいベンチマークデータセットであるMedArabiQを紹介する。筆者らはまず,過去の医学試験と公開データセットを用いてデータセットを構築した。次に、バイアス緩和を含む様々なLCM機能を評価するために、異なる修正を導入した。
論文参考訳（メタデータ） (2025-05-06T11:07:26Z)
ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation [1.8109081066789847]
古典アラビア語は重要な時代であり、アラブ文化、哲学、科学文学の黄金時代を包含している。我々は古典アラビア語の翻訳データセットが不足していることを特定し、スコープやトピックに制限されることが多い。 ATHARデータセットは66,000の高品質のアラビア語から英語への翻訳サンプルからなる。
論文参考訳（メタデータ） (2024-07-29T09:45:34Z)
AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。 AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文参考訳（メタデータ） (2024-07-18T02:13:50Z)
Leveraging Corpus Metadata to Detect Template-based Translation: An Exploratory Case Study of the Egyptian Arabic Wikipedia Edition [0.0]
アラビア語ウィキペディアの3つの版、アラビア語ウィキペディア(AR)、エジプトアラビア語ウィキペディア(ARZ)、モロッコアラビア語ウィキペディア(ary)を研究している。エジプト・アラビア語ウィキペディアで発生したテンプレート翻訳の問題を,これらのテンプレート翻訳記事とその特徴を識別することによって緩和することを目的としている。
論文参考訳（メタデータ） (2024-03-31T05:14:38Z)
BiMediX: Bilingual Medical Mixture of Experts LLM [94.85518237963535]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文参考訳（メタデータ） (2024-02-20T18:59:26Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
RuBioRoBERTa: a pre-trained biomedical language model for Russian language biomedical text mining [117.56261821197741]
ロシア語生物医学テキストマイニングのためのBERTベースのモデルをいくつか提示する。これらのモデルは、ロシアの生物医学領域で自由に利用できるテキストのコーパスで事前訓練されている。
論文参考訳（メタデータ） (2022-04-08T09:18:59Z)
A Deep CNN Architecture with Novel Pooling Layer Applied to Two Sudanese Arabic Sentiment Datasets [1.1034493405536276]
2-class Sudanese Sentimentデータセットと3-class Sudanese Sentimentデータセットだ。 5つのCNN層と新しいプール層であるMMAからなるCNNアーキテクチャを提案する。提案したモデルは、既存のサウジセンティメントデータセットと、85.55%と90.01%の精度でMSAホテルアラビアレビューデータセットに適用される。
論文参考訳（メタデータ） (2022-01-29T21:33:28Z)
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文参考訳（メタデータ） (2021-06-15T12:25:30Z)
Predicting Clinical Diagnosis from Patients Electronic Health Records Using BERT-based Neural Networks [62.9447303059342]
医療コミュニティにおけるこの問題の重要性を示す。本稿では,変換器 (BERT) モデルによる2方向表現の分類順序の変更について述べる。約400万人のユニークな患者訪問からなる、大規模なロシアのEHRデータセットを使用します。
論文参考訳（メタデータ） (2020-07-15T09:22:55Z)
AraDIC: Arabic Document Classification using Image-Based Character Embeddings and Class-Balanced Loss [7.734726150561088]
本稿では,アラビア文書イメージベース分類器 (AraDIC) を新たに提案する。 AraDICは画像ベースの文字エンコーダと分類器から構成される。長期データ分散問題に対処するために、クラスバランス損失を用いてエンドツーエンドで訓練される。我々の知る限りでは、アラビア文字分類の問題に対処する最初の画像ベースの文字埋め込みフレームワークである。
論文参考訳（メタデータ） (2020-06-20T14:25:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。