論文の概要: Determinants of Training Corpus Size for Clinical Text Classification
- arxiv url: http://arxiv.org/abs/2601.15846v1
- Date: Thu, 22 Jan 2026 10:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.577901
- Title: Determinants of Training Corpus Size for Clinical Text Classification
- Title(参考訳): 臨床テキスト分類のためのトレーニングコーパスサイズの決定要因
- Authors: Jaya Chaturvedi, Saniya Deshpande, Chenkai Ma, Robert Cobb, Angus Roberts, Robert Stewart, Daniel Stahl, Diana Shamsutdinova,
- Abstract要約: ICD-9をラベルとした退院ノートを含むMIMIC-IIIデータセットを使用。
トレーニング済みのBERT埋め込みとランダムフォレスト分類器を用いて,ランダムに選択した10の診断を同定した。
語彙分析の結果,より強い予測値と雑音の少ない予測値が学習曲線の急激な増加と関連していることがわかった。
- 参考スコア(独自算出の注目度): 3.1147135456490194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Introduction: Clinical text classification using natural language processing (NLP) models requires adequate training data to achieve optimal performance. For that, 200-500 documents are typically annotated. The number is constrained by time and costs and lacks justification of the sample size requirements and their relationship to text vocabulary properties. Methods: Using the publicly available MIMIC-III dataset containing hospital discharge notes with ICD-9 diagnoses as labels, we employed pre-trained BERT embeddings followed by Random Forest classifiers to identify 10 randomly selected diagnoses, varying training corpus sizes from 100 to 10,000 documents, and analyzed vocabulary properties by identifying strong and noisy predictive words through Lasso logistic regression on bag-of-words embeddings. Results: Learning curves varied significantly across the 10 classification tasks despite identical preprocessing and algorithms, with 600 documents sufficient to achieve 95% of the performance attainable with 10,000 documents for all tasks. Vocabulary analysis revealed that more strong predictors and fewer noisy predictors were associated with steeper learning curves, where every 100 additional noisy words decreased accuracy by approximately 0.02 while 100 additional strong predictors increased maximum accuracy by approximately 0.04.
- Abstract(参考訳): 導入: 自然言語処理(NLP)モデルを用いた臨床テキスト分類では, 最適な性能を得るために適切なトレーニングデータが必要である。
そのため、典型的には200-500の文書に注釈が付けられている。
この数字は時間とコストによって制約され、サンプルサイズ要件とテキスト語彙特性との関係の正当化が欠如している。
方法:ICD-9をラベルとした病院の退院ノートを含むMIMIC-IIIデータセットを用いて,無作為に選択された10の診断,100から10,000の文書のトレーニングコーパスサイズの変化,およびラッソ語による単語の対数的回帰を用いて語彙特性を解析した。
結果: 学習曲線は前処理とアルゴリズムが同一であるにもかかわらず, 10の分類タスクで大きく変化した。
語彙分析の結果、より強い予測器とより少ない雑音予測器はより急激な学習曲線に関連付けられており、100以上の雑音予測器が約0.02の精度で減少し、100の強い予測器が約0.04の精度で増加していた。
関連論文リスト
- Practical Machine Learning for Aphasic Discourse Analysis [0.0]
本研究は、画像記述作業中に、正しい情報単位(CIU)を確実に識別するための5つの機械学習モデルを評価する。
ベースラインモデルのトレーニングは、単語対非単語の書き起こしに対して高い精度を実現し、全てのモデルがほぼ完璧な性能を達成した。
対照的にCIU対非CIUは、k-nearest neighbor(k-NN)モデルが最も正確(0.824)で、AUC(0.787)が2番目に高い。
論文 参考訳(メタデータ) (2025-11-12T11:42:17Z) - Beyond Long Context: When Semantics Matter More than Tokens [0.0]
Electronic Health Recordsは、FHIR DocumentReferenceリソースにエンコードされたbase64アタッチメントとして、臨床ドキュメントを保存している。
Lopezらによって導入されたクリニカルエンティティ拡張検索(CLEAR)法は、エンティティ認識検索を使用している。
CLEARは58.3%の勝利率を達成し、平均的な意味的類似度は0.878であり、幅広いコンテキスト処理よりも78%少ないトークンを使用した。
論文 参考訳(メタデータ) (2025-10-29T16:41:44Z) - Enhancing Clinical Text Classification via Fine-Tuned DRAGON Longformer Models [7.514574388197471]
本研究は,臨床テキスト分類のためのDRAGON Longformerベースモデルの最適化について検討する。
構造化された医療観察を含む500の臨床症例のデータセットを使用した。
最適化されたモデルは、顕著なパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-07-13T03:10:19Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Reprogramming Pretrained Language Models for Protein Sequence
Representation Learning [68.75392232599654]
エンドツーエンドの表現学習フレームワークである辞書学習(R2DL)による表現学習を提案する。
R2DLは、タンパク質配列の埋め込みを学ぶために、事前訓練された英語モデルを再プログラムする。
我々のモデルは,事前訓練および標準教師付き手法によって設定されたベースラインに対して,最大105ドルの精度でデータ効率を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-01-05T15:55:18Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Detecting of a Patient's Condition From Clinical Narratives Using
Natural Language Representation [0.3149883354098941]
本稿では,臨床自然言語表現学習と教師付き分類フレームワークを提案する。
この新しいフレームワークは、文脈的臨床物語入力から分布構文と潜在意味論(表現学習)を共同で発見する。
提案手法では, 精度, 再現性, 精度をそれぞれ89 %, 88 %, 89 %とした総合分類性能が得られる。
論文 参考訳(メタデータ) (2021-04-08T17:16:04Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。