論文の概要: GGPONC: A Corpus of German Medical Text with Rich Metadata Based on
Clinical Practice Guidelines
- arxiv url: http://arxiv.org/abs/2007.06400v2
- Date: Mon, 16 Nov 2020 09:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:00:10.386553
- Title: GGPONC: A Corpus of German Medical Text with Rich Metadata Based on
Clinical Practice Guidelines
- Title(参考訳): GGPONC : 臨床実習ガイドラインに基づく豊富なメタデータを持つドイツの医用テキストコーパス
- Authors: Florian Borchert, Christina Lohr, Luise Modersohn, Thomas Langer,
Markus Follmann, Jan Philipp Sachs, Udo Hahn and Matthieu-P. Schapranow
- Abstract要約: GGPONCは、腫瘍診療ガイドラインに基づく、自由に配布可能なドイツ語コーパスである。
GGPONCは、大きな医療分野における様々な状況をカバーするドイツ語の最初のコーパスである。
既存の医療情報抽出パイプラインをドイツ語テキストに適用し,評価することにより,医学的言語を用いた比較を行うことができる。
- 参考スコア(独自算出の注目度): 4.370297546680015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of publicly accessible text corpora is a major obstacle for progress
in natural language processing. For medical applications, unfortunately, all
language communities other than English are low-resourced. In this work, we
present GGPONC (German Guideline Program in Oncology NLP Corpus), a freely
distributable German language corpus based on clinical practice guidelines for
oncology. This corpus is one of the largest ever built from German medical
documents. Unlike clinical documents, clinical guidelines do not contain any
patient-related information and can therefore be used without data protection
restrictions. Moreover, GGPONC is the first corpus for the German language
covering diverse conditions in a large medical subfield and provides a variety
of metadata, such as literature references and evidence levels. By applying and
evaluating existing medical information extraction pipelines for German text,
we are able to draw comparisons for the use of medical language to other
corpora, medical and non-medical ones.
- Abstract(参考訳): 公開されているテキストコーパスの欠如は、自然言語処理の進歩の大きな障害である。
医療分野では、残念ながら英語以外の言語コミュニティは低リソースである。
本稿では,臨床ガイドラインに基づいた自由に配布可能なドイツ語コーパスであるggponc (german guideline program in oncology nlp corpus) を提案する。
このコーパスは、ドイツの医療文書から作られた中で最大のものである。
臨床文書とは異なり、臨床ガイドラインには患者に関連する情報が含まれておらず、したがってデータ保護の制限なしに使用できる。
さらに、GGPONCは、大きな医療分野における様々な条件をカバーし、文献参照やエビデンスレベルなどの様々なメタデータを提供する、ドイツの最初のコーパスである。
既存のドイツ語テキストの医療情報抽出パイプラインを適用・評価することにより、他のコーパス、医療、非医療用と医療用言語の使用の比較を行うことができる。
関連論文リスト
- Multilingual Clinical NER: Translation or Cross-lingual Transfer? [4.4924444466378555]
翻訳に基づく手法は、言語間移動と同じような性能が得られることを示す。
我々はMedNERFを、フランスの医薬品処方薬から抽出した医療用NERテストセットとしてリリースし、英語のデータセットと同じガイドラインで注釈を付した。
論文 参考訳(メタデータ) (2023-06-07T12:31:07Z) - Cross-lingual Argument Mining in the Medical Domain [5.9647924003148365]
このプロジェクトは、手動による介入なしに注釈付きデータを生成する効果的な方法として、自動で英語からターゲット言語(スペイン語)にアノテーションを翻訳し、プロジェクトすることを示す。
また、スペイン語で自動生成したデータを用いて、元の英語評価設定の結果を改善する方法も示す。
論文 参考訳(メタデータ) (2023-01-25T11:21:12Z) - Cross-lingual Approaches for the Detection of Adverse Drug Reactions in
German from a Patient's Perspective [3.8233498951276403]
患者生成内容におけるドイツ逆薬物反応検出のための最初のコーパスを提示する。
データはドイツの患者フォーラムから4,169件の注釈付き文書から成っている。
論文 参考訳(メタデータ) (2022-08-03T12:52:01Z) - A Medical Information Extraction Workbench to Process German Clinical
Text [5.519657218427976]
我々は、ドイツの臨床テキスト処理モデルのコレクションであるワークベンチを紹介する。
これらのモデルは、ドイツのネフローロジーレポートの未確認コーパスで訓練されている。
私たちのワークベンチは公開されており、すぐに、ベンチマークとして、あるいは関連する問題に移行できるようにしています。
論文 参考訳(メタデータ) (2022-07-08T13:19:19Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z) - SemClinBr -- a multi institutional and multi specialty semantically
annotated corpus for Portuguese clinical NLP tasks [0.7311642662742726]
SemClinBrは1000の臨床ノートを持ち、65,117個のエンティティと11,263個の関係を持つコーパスである。
この研究はSemClinBrというコーパスで、臨床ノートが1000個あり、65,117のエンティティと11,263のリレーションがラベル付けされている。
論文 参考訳(メタデータ) (2020-01-27T20:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。