論文の概要: Clinical Document Corpora -- Real Ones, Translated and Synthetic Substitutes, and Assorted Domain Proxies: A Survey of Diversity in Corpus Design, with Focus on German Text Data
- arxiv url: http://arxiv.org/abs/2412.00230v2
- Date: Tue, 18 Feb 2025 20:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:56:36.935166
- Title: Clinical Document Corpora -- Real Ones, Translated and Synthetic Substitutes, and Assorted Domain Proxies: A Survey of Diversity in Corpus Design, with Focus on German Text Data
- Title(参考訳): 臨床ドキュメントコーパス - 実物, 翻訳, 合成置換物, および関連ドメインプロキシ--コーパス設計における多様性に関する調査とドイツ語テキストデータを中心に
- Authors: Udo Hahn,
- Abstract要約: ドイツの厳格なデータプライバシー法により、これらのリソースは安全な臨床データ空間に保管され、臨床外部研究者に対してロックされている。
この状況は、自然言語処理の分野において、データ収集の容易なアクセシビリティと再利用が一般的な実践であるのとは対照的である。
- 参考スコア(独自算出の注目度): 2.6936101156436956
- License:
- Abstract: We survey clinical document corpora, with focus on German textual data. Due to rigid data privacy legislation in Germany these resources, with only few exceptions, are stored in safe clinical data spaces and locked against clinic-external researchers. This situation stands in stark contrast with established workflows in the field of natural language processing where easy accessibility and reuse of data collections are common practice. Hence, alternative corpus designs have been examined to escape from this data poverty. Besides machine translation of English clinical datasets and the generation of synthetic corpora with fictitious clinical contents, several other types of domain proxies have come up as substitutes for clinical documents. Common instances of close proxies are medical journal publications, therapy guidelines, drug labels, etc., more distant proxies include online encyclopedic medical articles or medical contents from social media channels. After PRISM-conformant identification of 362 hits from 4 bibliographic systems, 78 relevant documents were finally selected for this review. They contained overall 92 different published versions of corpora from which 71 were truly unique in terms of their underlying document sets. Out of these, the majority were clinical corpora -- 46 real ones, 5 translated ones, and 6 synthetic ones. As to domain proxies, we identified 18 close and 17 distant ones. There is a clear divide between the large number of non-accessible authentic clinical German-language corpora and their publicly accessible substitutes: translated or synthetic, close or more distant proxies. So on first sight, the data bottleneck seems broken. Yet differences in genre-specific writing style, wording and medical domain expertise in this typological space are also obvious. This raises the question how valid alternative corpus designs really are.
- Abstract(参考訳): 臨床文書コーパスをドイツのテキストデータに焦点をあてて調査する。
ドイツにおける厳格なデータプライバシー法により、これらのリソースはわずかな例外を除いて、安全な臨床データ空間に保管され、臨床外部研究者に対してロックされている。
この状況は、自然言語処理の分野で確立されたワークフローとは対照的であり、データ収集の容易なアクセシビリティと再利用が一般的である。
したがって、このデータ貧困から逃れるために、代替コーパスの設計が検討されている。
英語臨床データセットの機械翻訳や、架空の臨床内容を持つ合成コーパスの生成に加えて、いくつかの種類のドメインプロキシが臨床文書の代用として登場している。
近接プロキシの一般的な例は、医学雑誌の出版、治療ガイドライン、薬物ラベルなどであり、より遠方のプロキシには、オンライン百科事典の医療記事やソーシャルメディアチャンネルからの医療コンテンツが含まれる。
PRISM-conformant identified of 362 Hit from 4 bibliographic systems, 78 relevant document were finally selected for this review。
それらには92の異なるコーパス版が含まれており、71はそれらの基盤となる文書集合に関して真に独特である。
内訳は、臨床コーパス(実物46件、翻訳物5件、合成物6件)である。
ドメインプロキシでは、18の近縁種と17の遠縁種を同定した。
多数のアクセシブルな臨床用ドイツ語コーパスと、翻訳、合成、近距離または遠距離のプロキシといった、一般にアクセス可能な代替品との間には明確な隔たりがある。
だから、一見すると、データのボトルネックは壊れているようだ。
しかし、この類型的空間におけるジャンル別書体、語学、医学領域の専門性の違いも明らかである。
これは、代替コーパスのデザインが本当にどの程度有効なのかという疑問を提起する。
関連論文リスト
- Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - An Easy-to-use and Robust Approach for the Differentially Private
De-Identification of Clinical Textual Documents [0.0]
本稿では, より頑健な識別の強化により, 効率よく, 微分的にプライベートな識別方法を実現する方法を示す。
この結果は、フランス語で臨床文書を識別するアプローチであるが、他の言語にも一般化可能である。
論文 参考訳(メタデータ) (2022-11-02T14:25:09Z) - De-Identification of French Unstructured Clinical Notes for Machine
Learning Tasks [0.0]
本稿では,フランス語の医療文書を包括的に同定する手法を提案する。
このアプローチは、フランスの公立病院のフランス語医療データセットで評価されている。
論文 参考訳(メタデータ) (2022-09-16T13:00:47Z) - Cross-Lingual Knowledge Transfer for Clinical Phenotyping [55.92262310716537]
本稿では,英語を使わないクリニックに対して,このタスクを実行するための言語間知識伝達戦略について検討する。
ギリシャ語とスペイン語のクリニックに対して,異なる臨床領域のクリニカルノートを活用して,これらの戦略を評価する。
以上の結果から,多言語データを用いることで,臨床表現型モデルが改善され,データの疎度を補うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2022-08-03T08:33:21Z) - A Medical Information Extraction Workbench to Process German Clinical
Text [5.519657218427976]
我々は、ドイツの臨床テキスト処理モデルのコレクションであるワークベンチを紹介する。
これらのモデルは、ドイツのネフローロジーレポートの未確認コーパスで訓練されている。
私たちのワークベンチは公開されており、すぐに、ベンチマークとして、あるいは関連する問題に移行できるようにしています。
論文 参考訳(メタデータ) (2022-07-08T13:19:19Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Towards more patient friendly clinical notes through language models and
ontologies [57.51898902864543]
本稿では,単語の単純化と言語モデリングに基づく医療用テキストの自動作成手法を提案する。
我々は,公開医療文のデータセットペアと,臨床医による簡易化版を用いている。
本手法は,医学フォーラムデータに基づく言語モデルを用いて,文法と本来の意味の両方を保存しながら,より単純な文を生成する。
論文 参考訳(メタデータ) (2021-12-23T16:11:19Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - GGPONC: A Corpus of German Medical Text with Rich Metadata Based on
Clinical Practice Guidelines [4.370297546680015]
GGPONCは、腫瘍診療ガイドラインに基づく、自由に配布可能なドイツ語コーパスである。
GGPONCは、大きな医療分野における様々な状況をカバーするドイツ語の最初のコーパスである。
既存の医療情報抽出パイプラインをドイツ語テキストに適用し,評価することにより,医学的言語を用いた比較を行うことができる。
論文 参考訳(メタデータ) (2020-07-13T14:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。