Fugu-MT 論文翻訳(概要): Language corpora for the Dutch medical domain

論文の概要: Language corpora for the Dutch medical domain

arxiv url: http://arxiv.org/abs/2604.25374v1
Date: Tue, 28 Apr 2026 08:38:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.779015
Title: Language corpora for the Dutch medical domain
Title（参考訳）: オランダ医学領域における言語コーパス
Authors: B. van Es,
Abstract要約: オランダの医療コーパスは乏しく、NLPの発達を制限している。この研究は、オランダ初の大規模医療用言語コーパスを樹立し、NLPタスクの事前訓練とダウンストリームを行う。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: \textbf{Background:} Dutch medical corpora are scarce, limiting NLP development. \\ \textbf{Methods:} We translated English datasets, identified medical text in generic corpora, and extracted open Dutch medical resources. \\ \textbf{Results:} The resulting corpus comprises $\pm$ 35 billion tokens across the medical domain in about 100 million documents, freely available on Hugging Face. \\ \textbf{Conclusion:} This work establishes the first large-scale Dutch medical language corpus for pre-training and downstream NLP tasks.
Abstract（参考訳）: \textbf{Background:} オランダの医療コーパスは少なく、NLP開発を制限している。 \\ \textbf{Methods:} 私たちは、英語のデータセットを翻訳し、一般的なコーパスで医学テキストを特定し、オランダのオープンな医療資源を抽出した。得られたコーパスは、医療ドメイン全体で約1億のドキュメントで$\pm$35億のトークンで構成されており、Hugging Faceで無料で利用できる。この研究は、学習前および下流のNLPタスクのための、オランダ初の大規模医療用言語コーパスを確立する。

関連論文リスト

Evaluating Fine-Tuned LLM Model For Medical Transcription With Small Low-Resource Languages Validated Dataset [1.2489632787815885]
本研究の目的は,LLaMA 3.1-8Bの微調整により,フィンランドにおける医学転写におけるドメイン整合自然言語処理(NLP)と大規模言語モデルの有効性を検討することである。微調整の有効性は7倍のクロスバリデーションにより評価した。その結果,n-gramの重複は低かったが,参照書き起こしと強い意味的類似性を示した。
論文参考訳（メタデータ） (2026-03-25T19:44:49Z)
Biomedical Entity Linking for Dutch: Fine-tuning a Self-alignment BERT Model on an Automatically Generated Wikipedia Corpus [2.4686585810894477]
本稿では,オランダ語におけるバイオメディカルエンティティリンクモデルについて述べる。オントロジーにリンクしたオランダの生物医学的実体を文脈でウィキペディアから抽出した。以上の結果から,英語以外の言語でリンクする生物医学的実体はいまだに困難であることが示唆された。
論文参考訳（メタデータ） (2024-05-20T10:30:36Z)
BiMediX: Bilingual Medical Mixture of Experts LLM [90.3257333861513]
英語とアラビア語の両方でシームレスに相互作用するように設計された、最初のバイリンガル医療混合物であるBiMediXを紹介する。我々のモデルは、英語とアラビア語の幅広い医学的相互作用を促進し、さらに詳細を問い合わせるマルチターンチャットを含む。そこで我々は,高品質な翻訳を保証するために,人間の洗練を図った英語からアラビア語への半自動翻訳パイプラインを提案する。
論文参考訳（メタデータ） (2024-02-20T18:59:26Z)
ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences [51.66185471742271]
我々は中国医学領域向けに明示的に設計されたベンチマークLSMであるChiMed-GPTを提案する。 ChiMed-GPTは、事前訓練、SFT、RLHFを含む総合的な訓練体制を実施。我々は,ChiMed-GPTを患者識別に関する態度尺度の実行を促すことによって,潜在的なバイアスを分析した。
論文参考訳（メタデータ） (2023-11-10T12:25:32Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)
Spanish Biomedical Crawled Corpus: A Large, Diverse Dataset for Spanish Biomedical Language Models [0.05277024349608833]
CoWeSeは、2020年に実行された3000のスペインドメインの大規模なクローラーの結果です。コーパスは公開されており、すでに前処理されている。 CoWeSeはスペイン語のバイオメディカルおよび健康NLPにとって重要な資源である。
論文参考訳（メタデータ） (2021-09-16T07:22:28Z)
A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文参考訳（メタデータ） (2020-08-06T21:26:43Z)
GGPONC: A Corpus of German Medical Text with Rich Metadata Based on Clinical Practice Guidelines [4.370297546680015]
GGPONCは、腫瘍診療ガイドラインに基づく、自由に配布可能なドイツ語コーパスである。 GGPONCは、大きな医療分野における様々な状況をカバーするドイツ語の最初のコーパスである。既存の医療情報抽出パイプラインをドイツ語テキストに適用し,評価することにより,医学的言語を用いた比較を行うことができる。
論文参考訳（メタデータ） (2020-07-13T14:25:49Z)
NEJM-enzh: A Parallel Corpus for English-Chinese Translation in the Biomedical Domain [6.71154976025969]
ニューイングランド・ジャーナル・オブ・メディカル(NEJM)から英語と中国語の並行コーパスを取得・処理するためのパイプラインを開発する。ドメイン外データのトレーニングと4000のNEJM文ペアによる微調整により, en$to$zh (zh$to$en) 方向のBLEUを25.3 (13.4) 向上させることを示した。
論文参考訳（メタデータ） (2020-05-18T23:25:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。