論文の概要: GGPONC: A Corpus of German Medical Text with Rich Metadata Based on
Clinical Practice Guidelines
- arxiv url: http://arxiv.org/abs/2007.06400v2
- Date: Mon, 16 Nov 2020 09:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 00:00:10.386553
- Title: GGPONC: A Corpus of German Medical Text with Rich Metadata Based on
Clinical Practice Guidelines
- Title(参考訳): GGPONC : 臨床実習ガイドラインに基づく豊富なメタデータを持つドイツの医用テキストコーパス
- Authors: Florian Borchert, Christina Lohr, Luise Modersohn, Thomas Langer,
Markus Follmann, Jan Philipp Sachs, Udo Hahn and Matthieu-P. Schapranow
- Abstract要約: GGPONCは、腫瘍診療ガイドラインに基づく、自由に配布可能なドイツ語コーパスである。
GGPONCは、大きな医療分野における様々な状況をカバーするドイツ語の最初のコーパスである。
既存の医療情報抽出パイプラインをドイツ語テキストに適用し,評価することにより,医学的言語を用いた比較を行うことができる。
- 参考スコア(独自算出の注目度): 4.370297546680015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of publicly accessible text corpora is a major obstacle for progress
in natural language processing. For medical applications, unfortunately, all
language communities other than English are low-resourced. In this work, we
present GGPONC (German Guideline Program in Oncology NLP Corpus), a freely
distributable German language corpus based on clinical practice guidelines for
oncology. This corpus is one of the largest ever built from German medical
documents. Unlike clinical documents, clinical guidelines do not contain any
patient-related information and can therefore be used without data protection
restrictions. Moreover, GGPONC is the first corpus for the German language
covering diverse conditions in a large medical subfield and provides a variety
of metadata, such as literature references and evidence levels. By applying and
evaluating existing medical information extraction pipelines for German text,
we are able to draw comparisons for the use of medical language to other
corpora, medical and non-medical ones.
- Abstract(参考訳): 公開されているテキストコーパスの欠如は、自然言語処理の進歩の大きな障害である。
医療分野では、残念ながら英語以外の言語コミュニティは低リソースである。
本稿では,臨床ガイドラインに基づいた自由に配布可能なドイツ語コーパスであるggponc (german guideline program in oncology nlp corpus) を提案する。
このコーパスは、ドイツの医療文書から作られた中で最大のものである。
臨床文書とは異なり、臨床ガイドラインには患者に関連する情報が含まれておらず、したがってデータ保護の制限なしに使用できる。
さらに、GGPONCは、大きな医療分野における様々な条件をカバーし、文献参照やエビデンスレベルなどの様々なメタデータを提供する、ドイツの最初のコーパスである。
既存のドイツ語テキストの医療情報抽出パイプラインを適用・評価することにより、他のコーパス、医療、非医療用と医療用言語の使用の比較を行うことができる。
関連論文リスト
- ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish [39.81302995670643]
本研究は、医療エンティティリンクのための2相パイプラインを用いた新しいアプローチであるClinLinkerを提示する。
SapBERTベースのバイエンコーダに基づいており、その後クロスエンコーダで再ランクされ、スペインの医療概念に合わせた対照的な学習戦略に従って訓練されている。
論文 参考訳(メタデータ) (2024-04-09T15:04:27Z) - Comprehensive Study on German Language Models for Clinical and Biomedical Text Understanding [16.220303664681172]
我々は、翻訳された英語の医療データとドイツの臨床データの3Bトークンから2.4Bトークンを抽出し、いくつかのドイツの医療言語モデルを事前訓練した。
得られたモデルは、名前付きエンティティ認識(NER)、多ラベル分類、抽出質問応答など、様々なドイツの下流タスクで評価された。
本研究は, 臨床モデルとスクラッチからトレーニングした成績を一致させたり, 上回ったりする能力が, 連続事前訓練によって実証されていることを結論する。
論文 参考訳(メタデータ) (2024-04-08T17:24:04Z) - Cross-lingual Approaches for the Detection of Adverse Drug Reactions in
German from a Patient's Perspective [3.8233498951276403]
患者生成内容におけるドイツ逆薬物反応検出のための最初のコーパスを提示する。
データはドイツの患者フォーラムから4,169件の注釈付き文書から成っている。
論文 参考訳(メタデータ) (2022-08-03T12:52:01Z) - A Medical Information Extraction Workbench to Process German Clinical
Text [5.519657218427976]
我々は、ドイツの臨床テキスト処理モデルのコレクションであるワークベンチを紹介する。
これらのモデルは、ドイツのネフローロジーレポートの未確認コーパスで訓練されている。
私たちのワークベンチは公開されており、すぐに、ベンチマークとして、あるいは関連する問題に移行できるようにしています。
論文 参考訳(メタデータ) (2022-07-08T13:19:19Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z) - A Multilingual Neural Machine Translation Model for Biomedical Data [84.17747489525794]
生物医学領域におけるテキストの翻訳に使用できる多言語ニューラルマシン翻訳モデルをリリースする。
このモデルは5つの言語(フランス語、ドイツ語、イタリア語、韓国語、スペイン語)から英語に翻訳できる。
ドメインタグを使用して、大量のジェネリックおよびバイオメディカルデータをトレーニングする。
論文 参考訳(メタデータ) (2020-08-06T21:26:43Z) - SemClinBr -- a multi institutional and multi specialty semantically
annotated corpus for Portuguese clinical NLP tasks [0.7311642662742726]
SemClinBrは1000の臨床ノートを持ち、65,117個のエンティティと11,263個の関係を持つコーパスである。
この研究はSemClinBrというコーパスで、臨床ノートが1000個あり、65,117のエンティティと11,263のリレーションがラベル付けされている。
論文 参考訳(メタデータ) (2020-01-27T20:39:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。