論文の概要: Clinical Document Corpora and Assorted Domain Proxies: A Survey of Diversity in Corpus Design, with Focus on German Text Data
- arxiv url: http://arxiv.org/abs/2412.00230v1
- Date: Fri, 29 Nov 2024 19:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:10.690906
- Title: Clinical Document Corpora and Assorted Domain Proxies: A Survey of Diversity in Corpus Design, with Focus on German Text Data
- Title(参考訳): 臨床文書コーパスとドメインプロキシ: コーパス設計における多様性に関する調査 : ドイツ語テキストデータを中心に
- Authors: Udo Hahn,
- Abstract要約: ドイツの厳格なデータプライバシー法により、これらのリソースは安全な臨床データ空間に保管され、臨床外部研究者に対してロックされている。
この状況は、自然言語処理の分野において、データ収集の容易なアクセシビリティと再利用が一般的な実践であるのとは対照的である。
- 参考スコア(独自算出の注目度): 2.6936101156436956
- License:
- Abstract: We survey clinical document corpora, with focus on German textual data. Due to rigid data privacy legislation in Germany these resources, with only few exceptions, are stored in safe clinical data spaces and locked against clinic-external researchers. This situation stands in stark contrast with established workflows in the field of natural language processing where easy accessibility and reuse of data collections are common practice. Hence, alternative corpus designs have been examined to escape from this data poverty. Besides machine translation of English clinical datasets and the generation of synthetic corpora with fictitious clinical contents, several other types of domain proxies have come up as substitutes for authentic clinical documents. Common instances of close proxies are medical journal publications, clinical therapy guidelines, drug labels, etc., more distant proxies include online encyclopedic medical articles or medical contents from social media channels. After PRISM-conformant screening of 359 hits from four bibliographic systems, 75 relevant documents were finally selected for this review and 59 distinct corpora were determined. We identified 24 real clinical corpora (from 40 publications) out of which only 5 are publicly distributable. 2 translations of real corpora and 3 synthetic ones complement the set of clinical corpora. 14 corpora were categorized as close domain proxies, 16 as distant ones. There is a clear divide between the large number of non-accessible authentic clinical German-language corpora and their publicly accessible substitutes: translated or synthetic, close or more distant proxies. So on first sight, the data bottleneck seems broken. Intuitively yet, differences in genre-specific writing style, wording and medical domain expertise in this typological space are also obvious. This raises the question how valid alternative corpus designs really are.
- Abstract(参考訳): 臨床文書コーパスをドイツのテキストデータに焦点をあてて調査する。
ドイツにおける厳格なデータプライバシー法により、これらのリソースはわずかな例外を除いて、安全な臨床データ空間に保管され、臨床外部研究者に対してロックされている。
この状況は、自然言語処理の分野で確立されたワークフローとは対照的であり、データ収集の容易なアクセシビリティと再利用が一般的である。
したがって、このデータ貧困から逃れるために、代替コーパスの設計が検討されている。
英語の臨床データセットの機械翻訳や、架空の臨床内容を持つ合成コーパスの生成に加えて、いくつかのドメインプロキシが、認証された臨床文書の代用として登場した。
近接プロキシの一般的な例としては、医学雑誌の出版、臨床治療ガイドライン、薬物ラベルなどがあり、より遠方のプロキシには、オンライン百科事典やソーシャルメディアチャンネルからの医療コンテンツが含まれる。
PRISM-conformant screening of 359 Hit from four bibliographic systems, finally selected 75 relevant document were selected for this review and 59 distinct corpora were determined。
出版物40件から24件の実際の臨床コーパスを同定し,その内5件は公開販売可能であった。
実際のコーパスと3つの合成コーパスの翻訳は臨床コーパスのセットを補完する。
14のコーパスを近接領域プロキシに分類し, 16を遠領域プロキシに分類した。
多数のアクセシブルな臨床用ドイツ語コーパスと、翻訳、合成、近距離または遠距離のプロキシといった、一般にアクセス可能な代替品との間には明確な隔たりがある。
だから、一見すると、データのボトルネックは壊れているようだ。
直感的には、この類型的空間におけるジャンル固有の書体、語学、医学領域の専門性の違いも明らかである。
これは、代替コーパスのデザインが本当にどの程度有効なのかという疑問を提起する。
関連論文リスト
- ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish [39.81302995670643]
本研究は、医療エンティティリンクのための2相パイプラインを用いた新しいアプローチであるClinLinkerを提示する。
SapBERTベースのバイエンコーダに基づいており、その後クロスエンコーダで再ランクされ、スペインの医療概念に合わせた対照的な学習戦略に従って訓練されている。
論文 参考訳(メタデータ) (2024-04-09T15:04:27Z) - A Dataset for Pharmacovigilance in German, French, and Japanese: Annotating Adverse Drug Reactions across Languages [17.40961028505384]
本研究は, 患者フォーラム, ソーシャルメディア, 臨床報告, ドイツ語, フランス語, 日本語など, さまざまなソースから収集した副薬物反応に関する多言語コーパスを提示する。
これは、医療のための現実の多言語言語モデルの開発に貢献する。
論文 参考訳(メタデータ) (2024-03-27T08:21:01Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - An Easy-to-use and Robust Approach for the Differentially Private
De-Identification of Clinical Textual Documents [0.0]
本稿では, より頑健な識別の強化により, 効率よく, 微分的にプライベートな識別方法を実現する方法を示す。
この結果は、フランス語で臨床文書を識別するアプローチであるが、他の言語にも一般化可能である。
論文 参考訳(メタデータ) (2022-11-02T14:25:09Z) - Cross-Lingual Knowledge Transfer for Clinical Phenotyping [55.92262310716537]
本稿では,英語を使わないクリニックに対して,このタスクを実行するための言語間知識伝達戦略について検討する。
ギリシャ語とスペイン語のクリニックに対して,異なる臨床領域のクリニカルノートを活用して,これらの戦略を評価する。
以上の結果から,多言語データを用いることで,臨床表現型モデルが改善され,データの疎度を補うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-03T08:33:21Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - GGPONC: A Corpus of German Medical Text with Rich Metadata Based on
Clinical Practice Guidelines [4.370297546680015]
GGPONCは、腫瘍診療ガイドラインに基づく、自由に配布可能なドイツ語コーパスである。
GGPONCは、大きな医療分野における様々な状況をカバーするドイツ語の最初のコーパスである。
既存の医療情報抽出パイプラインをドイツ語テキストに適用し,評価することにより,医学的言語を用いた比較を行うことができる。
論文 参考訳(メタデータ) (2020-07-13T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。