論文の概要: FRACCO: A gold-standard annotated corpus of oncological entities with ICD-O-3.1 normalisation
- arxiv url: http://arxiv.org/abs/2510.13873v1
- Date: Mon, 13 Oct 2025 14:00:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.503113
- Title: FRACCO: A gold-standard annotated corpus of oncological entities with ICD-O-3.1 normalisation
- Title(参考訳): FRACCO : ICD-O-3.1の正常化を伴う腫瘍性物質の金標準アノテートコーパス
- Authors: Johann Pignat, Milena Vucetic, Christophe Gaudet-Blavignac, Jamil Zaghir, Amandine Stettler, Fanny Amrein, Jonatan Bonjour, Jean-Philippe Goldman, Olivier Michielin, Christian Lovis, Mina Bjelogrlic,
- Abstract要約: FRACCO(FRACCO)は、フランスの1301症例の専門的な注釈付きコーパスである。
各文書には、形態学、地形学、組織分化に関する用語が注記されている。
- 参考スコア(独自算出の注目度): 0.9072519671397496
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Developing natural language processing tools for clinical text requires annotated datasets, yet French oncology resources remain scarce. We present FRACCO (FRench Annotated Corpus for Clinical Oncology) an expert-annotated corpus of 1301 synthetic French clinical cases, initially translated from the Spanish CANTEMIST corpus as part of the FRASIMED initiative. Each document is annotated with terms related to morphology, topography, and histologic differentiation, using the International Classification of Diseases for Oncology (ICD-O) as reference. An additional annotation layer captures composite expression-level normalisations that combine multiple ICD-O elements into unified clinical concepts. Annotation quality was ensured through expert review: 1301 texts were manually annotated for entity spans by two domain experts. A total of 71127 ICD-O normalisations were produced through a combination of automated matching and manual validation by a team of five annotators. The final dataset representing 399 unique morphology codes (from 2549 different expressions), 272 topography codes (from 3143 different expressions), and 2043 unique composite expressions (from 11144 different expressions). This dataset provides a reference standard for named entity recognition and concept normalisation in French oncology texts.
- Abstract(参考訳): 臨床テキストのための自然言語処理ツールの開発には注釈付きデータセットが必要であるが、フランスの腫瘍学資源は乏しい。
フレンチ・アノテート・コーパス(French Annotated Corpus for Clinical Oncology)は,スペインのCANTEMISTコーパスからFRASIMEDイニシアチブの一部として翻訳された,1301の合成臨床症例の専門的注釈コーパスである。
各文書は、国際腫瘍学分類(ICD-O)を参考に、形態学、地形学、組織分化に関する用語で注釈付けされている。
追加のアノテーション層は、複数のICD-O要素を統合的な臨床概念に組み合わせた複合表現レベルの正規化をキャプチャする。
1301のテキストは、2つのドメインの専門家によって、エンティティスパンに手動でアノテートされた。
5つのアノテータからなるチームによる自動マッチングと手動検証の組み合わせにより、合計71127のICD-O正規化が作成された。
最終データセットは、399のユニークな形態素コード(2549の異なる表現から)、272のトポグラフィコード(3143の異なる表現から)、2043のユニークな合成表現(11144の異なる表現から)を表す。
このデータセットは、フランスのオンコロジーテキストで名前付きエンティティ認識と概念正規化のための参照標準を提供する。
関連論文リスト
- Using LLMs for Multilingual Clinical Entity Linking to ICD-10 [3.7463543521744764]
LLM(Large Language Models)を用いた各種言語におけるICD-10コードへの臨床用語のリンク手法を提案する。
本システムは,スペイン語の異なるベンチマークデータセット上でのICD-10コード予測の有望な結果を示す。
論文 参考訳(メタデータ) (2025-09-05T07:30:40Z) - ISPO: An Integrated Ontology of Symptom Phenotypes for Semantic Integration of Traditional Chinese Medical Data [24.36545694430613]
本研究は,中国EMRのデータマイニングとTCM分野における実世界研究を支援するために,ISPOの統合オントロジーを構築することを目的とした。
論文 参考訳(メタデータ) (2024-07-08T15:23:50Z) - ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish [39.81302995670643]
本研究は、医療エンティティリンクのための2相パイプラインを用いた新しいアプローチであるClinLinkerを提示する。
SapBERTベースのバイエンコーダに基づいており、その後クロスエンコーダで再ランクされ、スペインの医療概念に合わせた対照的な学習戦略に従って訓練されている。
論文 参考訳(メタデータ) (2024-04-09T15:04:27Z) - PMC-LLaMA: Towards Building Open-source Language Models for Medicine [62.39105735933138]
大規模言語モデル(LLM)は、自然言語理解において顕著な能力を示した。
LLMは、ドメイン固有の知識が不足しているため、医学的応用のような正確性を必要とする領域で苦労している。
PMC-LLaMAと呼ばれる医療応用に特化した強力なオープンソース言語モデルの構築手順について述べる。
論文 参考訳(メタデータ) (2023-04-27T18:29:05Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - A Unified Framework of Medical Information Annotation and Extraction for
Chinese Clinical Text [1.4841452489515765]
現在の最先端(SOTA)NLPモデルは、ディープラーニング技術と高度に統合されている。
本研究では,医学的実体認識,関係抽出,属性抽出の工学的枠組みを提案する。
論文 参考訳(メタデータ) (2022-03-08T03:19:16Z) - Statistical Dependency Guided Contrastive Learning for Multiple Labeling
in Prenatal Ultrasound [56.631021151764955]
標準平面認識は出生前超音波(US)スクリーニングにおいて重要な役割を担っている。
我々は,複数の標準平面と対応する解剖学的構造を同時に識別する,新しいマルチラベル学習手法を構築した。
論文 参考訳(メタデータ) (2021-08-11T06:39:26Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z) - An analysis of full-size Russian complexly NER labelled corpus of
Internet user reviews on the drugs based on deep learning and language neural
nets [94.37521840642141]
我々は、インターネットユーザーレビューのフルサイズのロシアの複雑なNERラベルコーパスを提示します。
高度なディープラーニングニューラルネットワークセットは、ロシアのテキストから薬理学的に有意義な実体を抽出するために使用される。
論文 参考訳(メタデータ) (2021-04-30T19:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。