論文の概要: Enriched Annotations for Tumor Attribute Classification from Pathology
Reports with Limited Labeled Data
- arxiv url: http://arxiv.org/abs/2012.08113v1
- Date: Tue, 15 Dec 2020 06:31:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:38:35.485309
- Title: Enriched Annotations for Tumor Attribute Classification from Pathology
Reports with Limited Labeled Data
- Title(参考訳): 限定ラベルデータを用いた病理所見からの腫瘍属性分類のための富化アノテーション
- Authors: Nick Altieri, Briton Park, Mara Olson, John DeNero, Anobel Odisho, Bin
Yu
- Abstract要約: 患者のデータの多くは、構造化されていない自由テキストに閉じ込められ、効果的なパーソナライズされた治療の研究と提供を制限する。
我々は新しい階層型アノテーションスキームとアルゴリズムである Supervised Line Attention (SLA) を開発した。
我々は、カリフォルニア大学サンフランシスコ校の腎臓および結腸癌病理レポートの分類的腫瘍特性の予測にSLAを適用します。
- 参考スコア(独自算出の注目度): 10.876391752581862
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Precision medicine has the potential to revolutionize healthcare, but much of
the data for patients is locked away in unstructured free-text, limiting
research and delivery of effective personalized treatments. Generating large
annotated datasets for information extraction from clinical notes is often
challenging and expensive due to the high level of expertise needed for high
quality annotations. To enable natural language processing for small dataset
sizes, we develop a novel enriched hierarchical annotation scheme and
algorithm, Supervised Line Attention (SLA), and apply this algorithm to
predicting categorical tumor attributes from kidney and colon cancer pathology
reports from the University of California San Francisco (UCSF). Whereas
previous work only annotated document level labels, we in addition ask the
annotators to enrich the traditional label by asking them to also highlight the
relevant line or potentially lines for the final label, which leads to a 20%
increase of annotation time required per document. With the enriched
annotations, we develop a simple and interpretable machine learning algorithm
that first predicts the relevant lines in the document and then predicts the
tumor attribute. Our results show across the small dataset sizes of 32, 64,
128, and 186 labeled documents per cancer, SLA only requires half the number of
labeled documents as state-of-the-art methods to achieve similar or better
micro-f1 and macro-f1 scores for the vast majority of comparisons that we made.
Accounting for the increased annotation time, this leads to a 40% reduction in
total annotation time over the state of the art.
- Abstract(参考訳): 精密医療は医療に革命をもたらす可能性があるが、患者のデータの多くは構造化されていない自由テキストに閉じ込められ、効果的なパーソナライズされた治療の研究と提供を制限する。
臨床ノートから情報を取り出すために大量の注釈付きデータセットを生成することは、高品質なアノテーションに必要な高度な専門知識のため、しばしば困難で費用がかかる。
小データセットサイズでの自然言語処理を実現するため,我々は,新しい階層型アノテーションスキームとアルゴリズムである Supervised Line Attention (SLA) を開発し,このアルゴリズムを適用して,カリフォルニア大学サンフランシスコ校 (UCSF) の腎および大腸癌の病理報告から分類的腫瘍特性を予測する。
以前の作業では、文書レベルのラベルに注釈を付けるだけだったが、アノテーションを付けている人たちには、最終ラベルの関連する行や潜在的な行を強調するように依頼することで、従来のラベルの強化を依頼し、ドキュメントごとに20%のアノテーション時間の増加がもたらされた。
このアノテーションにより、文書中の関連行をまず予測し、次に腫瘍属性を予測する、シンプルで解釈可能な機械学習アルゴリズムを開発する。
以上の結果から,癌1例につき32,64,128,および186のラベル付き文書の小さなデータセットサイズにおいて,SLAは同等あるいは優れたマイクロf1およびマクロf1スコアを達成するための最先端手法としてラベル付き文書の半数しか必要としないことがわかった。
アノテーション時間の増加を考慮すると、このことは、美術品の状態よりも総アノテーション時間の40%削減につながる。
関連論文リスト
- Boosting Medical Image-based Cancer Detection via Text-guided Supervision from Reports [68.39938936308023]
本研究では, 高精度ながん検出を実現するための新しいテキスト誘導学習法を提案する。
本手法は,大規模プレトレーニングVLMによる臨床知識の活用により,一般化能力の向上が期待できる。
論文 参考訳(メタデータ) (2024-05-23T07:03:38Z) - Enhancing chest X-ray datasets with privacy-preserving large language models and multi-type annotations: a data-driven approach for improved classification [0.6144680854063935]
胸部X線(CXR)画像解析では、通常、ルールベースのシステムはデータセットリリースのレポートからラベルを抽出するために使用される。
本稿では,局所的に実行可能なLarge Language Model (LLM) を利用して,発見ラベルの抽出と拡張を行う新しいアプローチであるMAPLEZを提案する。
論文 参考訳(メタデータ) (2024-03-06T20:10:41Z) - A Marker-based Neural Network System for Extracting Social Determinants
of Health [12.6970199179668]
健康の社会的決定因子(SDoH)は、患者の医療の質と格差を左右する。
多くのSDoHアイテムは、電子健康記録の構造化形式でコード化されていない。
我々は,臨床ノートから自動的にSDoH情報を抽出する,名前付きエンティティ認識(NER),関係分類(RC),テキスト分類手法を含む多段階パイプラインを探索する。
論文 参考訳(メタデータ) (2022-12-24T18:40:23Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Label Cleaning Multiple Instance Learning: Refining Coarse Annotations
on Single Whole-Slide Images [83.7047542725469]
病理検体の全スライディング画像(WSI)における癌領域のアノテーションは、臨床診断、生医学研究、機械学習アルゴリズムの開発において重要な役割を担っている。
本稿では,外部トレーニングデータを必要とせず,単一のWSI上で粗いアノテーションを洗練するためのLC-MIL (Label Cleaning Multiple Instance Learning) を提案する。
乳癌リンパ節転移,肝癌,大腸癌の検体を併用した異種 WSI 実験の結果,LC-MIL は粗いアノテーションを著しく改善し,単一スライドから学習しながらも,最先端の代替品よりも優れていた。
論文 参考訳(メタデータ) (2021-09-22T15:06:06Z) - Analyzing the Granularity and Cost of Annotation in Clinical Sequence
Labeling [9.143551270841858]
教師付き機械学習(ML)では、研究者にとって十分な注釈付きデータセットがこれまで以上に重要になっている。
看護シフト・チェンジハンドオーバによる臨床記録を用いたシーケンスラベリングにおけるアノテーションの粒度とML性能の関係を解析した。
我々は,テキスト知識などの他の特徴を研究者や実践者に対して,シークエンスラベリング性能を高めるためのコスト効率の高い情報源として強調することを推奨する。
論文 参考訳(メタデータ) (2021-08-23T03:48:27Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Deep Semi-supervised Metric Learning with Dual Alignment for Cervical
Cancer Cell Detection [49.78612417406883]
子宮頸癌細胞検出のための新しい半教師付き深度測定法を提案する。
私たちのモデルは、埋め込みメトリック空間を学習し、提案レベルとプロトタイプレベルの両方でセマンティック機能の二重アライメントを行います。
本研究は,240,860個の頸部細胞画像からなる半監督型頸部がん細胞検出のための大規模データセットを初めて構築した。
論文 参考訳(メタデータ) (2021-04-07T17:11:27Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z) - Renal Cell Carcinoma Detection and Subtyping with Minimal Point-Based
Annotation in Whole-Slide Images [3.488702792183152]
全スライド画像からラベルのないデータを取得するのは、ずっと簡単かつ安価です。
半教師付き学習(SSL)は、ラベルのないデータを利用する効果的な方法である。
癌領域を正確に検出するためにSSL方式を用いるフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-12T14:12:07Z) - Exemplar Auditing for Multi-Label Biomedical Text Classification [0.4873362301533824]
我々は、最近提案されたゼロショットシーケンスラベリング手法「畳み込み分解による教師付きラベリング」を一般化する。
この手法は"イントロスペクション(introspection)"と分類され、推論時間予測のきめ細かい特徴を最も近い隣人に関連付ける。
提案手法は,医療従事者に対して,モデルの予測を駆動する健全な特徴を理解する上で,競争力のある分類モデルと尋問メカニズムの両方を提供する。
論文 参考訳(メタデータ) (2020-04-07T02:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。