Fugu-MT 論文翻訳(概要): GGPONC: A Corpus of German Medical Text with Rich Metadata Based on Clinical Practice Guidelines

論文の概要: GGPONC: A Corpus of German Medical Text with Rich Metadata Based on Clinical Practice Guidelines

arxiv url: http://arxiv.org/abs/2007.06400v2
Date: Mon, 16 Nov 2020 09:22:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-11 00:00:10.386553
Title: GGPONC: A Corpus of German Medical Text with Rich Metadata Based on Clinical Practice Guidelines
Title（参考訳）: GGPONC : 臨床実習ガイドラインに基づく豊富なメタデータを持つドイツの医用テキストコーパス
Authors: Florian Borchert, Christina Lohr, Luise Modersohn, Thomas Langer, Markus Follmann, Jan Philipp Sachs, Udo Hahn and Matthieu-P. Schapranow
Abstract要約: GGPONCは、腫瘍診療ガイドラインに基づく、自由に配布可能なドイツ語コーパスである。 GGPONCは、大きな医療分野における様々な状況をカバーするドイツ語の最初のコーパスである。既存の医療情報抽出パイプラインをドイツ語テキストに適用し,評価することにより,医学的言語を用いた比較を行うことができる。
参考スコア（独自算出の注目度）: 4.370297546680015
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The lack of publicly accessible text corpora is a major obstacle for progress in natural language processing. For medical applications, unfortunately, all language communities other than English are low-resourced. In this work, we present GGPONC (German Guideline Program in Oncology NLP Corpus), a freely distributable German language corpus based on clinical practice guidelines for oncology. This corpus is one of the largest ever built from German medical documents. Unlike clinical documents, clinical guidelines do not contain any patient-related information and can therefore be used without data protection restrictions. Moreover, GGPONC is the first corpus for the German language covering diverse conditions in a large medical subfield and provides a variety of metadata, such as literature references and evidence levels. By applying and evaluating existing medical information extraction pipelines for German text, we are able to draw comparisons for the use of medical language to other corpora, medical and non-medical ones.
Abstract（参考訳）: 公開されているテキストコーパスの欠如は、自然言語処理の進歩の大きな障害である。医療分野では、残念ながら英語以外の言語コミュニティは低リソースである。本稿では,臨床ガイドラインに基づいた自由に配布可能なドイツ語コーパスであるggponc (german guideline program in oncology nlp corpus) を提案する。このコーパスは、ドイツの医療文書から作られた中で最大のものである。臨床文書とは異なり、臨床ガイドラインには患者に関連する情報が含まれておらず、したがってデータ保護の制限なしに使用できる。さらに、GGPONCは、大きな医療分野における様々な条件をカバーし、文献参照やエビデンスレベルなどの様々なメタデータを提供する、ドイツの最初のコーパスである。既存のドイツ語テキストの医療情報抽出パイプラインを適用・評価することにより、他のコーパス、医療、非医療用と医療用言語の使用の比較を行うことができる。

関連論文リスト

MedErrBench: A Fine-Grained Multilingual Benchmark for Medical Error Detection and Correction with Clinical Expert Annotations [4.451052650309736]
我々はMedErrBenchを紹介した。MedErrBenchは、エラー検出、ローカライゼーション、修正のための最初の多言語ベンチマークである。 MedErrBenchは10種類の一般的な誤りの分類に基づいて、英語、アラビア語、中国語をカバーしている。その結果、特に英語以外の設定では、顕著なパフォーマンスのギャップが明らかとなった。
論文参考訳（メタデータ） (2026-02-05T14:18:20Z)
Clinical Document Corpora -- Real Ones, Translated and Synthetic Substitutes, and Assorted Domain Proxies: A Survey of Diversity in Corpus Design, with Focus on German Text Data [2.6936101156436956]
ドイツの厳格なデータプライバシー法により、これらのリソースは安全な臨床データ空間に保管され、臨床外部研究者に対してロックされている。この状況は、自然言語処理の分野において、データ収集の容易なアクセシビリティと再利用が一般的な実践であるのとは対照的である。
論文参考訳（メタデータ） (2024-11-29T19:56:58Z)
ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish [39.81302995670643]
本研究は、医療エンティティリンクのための2相パイプラインを用いた新しいアプローチであるClinLinkerを提示する。 SapBERTベースのバイエンコーダに基づいており、その後クロスエンコーダで再ランクされ、スペインの医療概念に合わせた対照的な学習戦略に従って訓練されている。
論文参考訳（メタデータ） (2024-04-09T15:04:27Z)
Comprehensive Study on German Language Models for Clinical and Biomedical Text Understanding [16.220303664681172]
我々は、翻訳された英語の医療データとドイツの臨床データの3Bトークンから2.4Bトークンを抽出し、いくつかのドイツの医療言語モデルを事前訓練した。得られたモデルは、名前付きエンティティ認識(NER)、多ラベル分類、抽出質問応答など、様々なドイツの下流タスクで評価された。本研究は, 臨床モデルとスクラッチからトレーニングした成績を一致させたり, 上回ったりする能力が, 連続事前訓練によって実証されていることを結論する。
論文参考訳（メタデータ） (2024-04-08T17:24:04Z)
Cross-lingual Approaches for the Detection of Adverse Drug Reactions in German from a Patient's Perspective [3.8233498951276403]
患者生成内容におけるドイツ逆薬物反応検出のための最初のコーパスを提示する。データはドイツの患者フォーラムから4,169件の注釈付き文書から成っている。
論文参考訳（メタデータ） (2022-08-03T12:52:01Z)
A Medical Information Extraction Workbench to Process German Clinical Text [5.519657218427976]
我々は、ドイツの臨床テキスト処理モデルのコレクションであるワークベンチを紹介する。これらのモデルは、ドイツのネフローロジーレポートの未確認コーパスで訓練されている。私たちのワークベンチは公開されており、すぐに、ベンチマークとして、あるいは関連する問題に移行できるようにしています。
論文参考訳（メタデータ） (2022-07-08T13:19:19Z)
Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文参考訳（メタデータ） (2022-04-10T21:46:52Z)
Towards more patient friendly clinical notes through language models and ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文参考訳（メタデータ） (2021-12-23T16:11:19Z)
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文参考訳（メタデータ） (2021-06-15T12:25:30Z)
An analysis of full-size Russian complexly NER labelled corpus of Internet user reviews on the drugs based on deep learning and language neural nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文参考訳（メタデータ） (2021-04-30T19:46:24Z)
Benchmarking Automated Clinical Language Simplification: Dataset, Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文参考訳（メタデータ） (2020-12-04T06:09:02Z)
A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文参考訳（メタデータ） (2020-08-06T21:26:43Z)
SemClinBr -- a multi institutional and multi specialty semantically annotated corpus for Portuguese clinical NLP tasks [0.7311642662742726]
SemClinBrは1000の臨床ノートを持ち、65,117個のエンティティと11,263個の関係を持つコーパスである。この研究はSemClinBrというコーパスで、臨床ノートが1000個あり、65,117のエンティティと11,263のリレーションがラベル付けされている。
論文参考訳（メタデータ） (2020-01-27T20:39:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。