論文の概要: Reproducible Synthetic Clinical Letters for Seizure Frequency Information Extraction
- arxiv url: http://arxiv.org/abs/2603.11407v1
- Date: Thu, 12 Mar 2026 00:41:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.734555
- Title: Reproducible Synthetic Clinical Letters for Seizure Frequency Information Extraction
- Title(参考訳): 清浄周波数情報抽出のための再生可能な臨床書面
- Authors: Yujian Gan, Stephen H. Barlow, Ben Holgate, Joe Davies, James T. Teo, Joel S. Winston, Mark P. Richardson,
- Abstract要約: シーズール頻度情報はてんかん研究や臨床医療において重要であるが、通常は可変自由テキストクリニックレターに記録されている。
完全合成だがタスク忠実なてんかん文字を用いて発作頻度を抽出するプライバシー保護フレームワークを開発した。
教師言語モデルは、正規化されたラベル、合理性、エビデンスと組み合わせたNHSスタイルの合成文字を生成する。
- 参考スコア(独自算出の注目度): 1.6818452785237203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Seizure-frequency information is important for epilepsy research and clinical care, but it is usually recorded in variable free-text clinic letters that are hard to annotate and share. We developed a reproducible, privacy-preserving framework for extracting seizure frequency using fully synthetic yet task-faithful epilepsy letters. We defined a structured label scheme covering common descriptions of seizure burden, including explicit rates, ranges, clusters, seizure-free intervals, unknown frequency, and explicit no-seizure statements. A teacher language model generated NHS-style synthetic letters paired with normalized labels, rationales, and evidence spans. We fine-tuned several open-weight language models (4B-14B parameters) on these synthetic letters to extract seizure frequency from full documents, comparing direct numeric prediction with structured label prediction and testing evidence-grounded outputs. On a clinician-checked held-out set of real clinic letters, models trained only on synthetic data generalized well, and structured labels consistently outperformed direct numeric regression. With 15,000 synthetic training letters, models achieved micro-F1 scores up to 0.788 for fine-grained categories and 0.847 for pragmatic categories; a medically oriented 4B model achieved 0.787 and 0.858, respectively. Evidence-grounded outputs also supported rapid clinical verification and error analysis. These results show that synthetic, structured, evidence-grounded supervision can enable robust seizure-frequency extraction without sharing sensitive patient text and may generalize to other temporally complex clinical information extraction tasks.
- Abstract(参考訳): シーズール頻度情報はてんかん研究や臨床医療において重要であるが、通常は注釈や共有が難しい可変自由テキストクリニックレターに記録されている。
完全合成であるがタスク忠実なてんかん文字を用いて発作頻度を抽出する再現可能なプライバシ保存フレームワークを開発した。
我々は、明示率、範囲、クラスタ、発作のない間隔、未知の周波数、明示的なノー・セイズール文を含む、発作負担の一般的な記述を含む構造化ラベルスキームを定義した。
教師言語モデルは、正規化されたラベル、合理性、エビデンスと組み合わせたNHSスタイルの合成文字を生成する。
我々はこれらの合成文字にいくつかのオープンウェイト言語モデル(4B-14Bパラメータ)を微調整し、完全文書から発作頻度を抽出し、直接数値予測と構造化ラベル予測とエビデンス基底出力を比較した。
クリニックチェックされた実クリニックレターセットでは、合成データのみに基づいて訓練されたモデルがよく一般化され、構造化ラベルは直接数値レグレッションよりも一貫して優れていた。
15,000の合成訓練文字で、マイクロF1スコアは細粒度で0.788、実用的カテゴリで0.847、医学指向の4Bモデルは0.787、0.858に達した。
エビデンス・グラウンドド・アウトプットは、迅速な臨床検証とエラー解析もサポートした。
以上の結果から, 総合的, 構造的, 根拠的, 根拠的管理により, センシティブな患者テキストを共有することなく, 堅牢な発作周波数抽出が可能であり, 時間的に複雑な臨床情報抽出タスクに一般化できる可能性が示唆された。
関連論文リスト
- Cross-Linguistic Persona-Driven Data Synthesis for Robust Multimodal Cognitive Decline Detection [20.599682298329213]
我々は、制御可能なゼロショットマルチモーダルデータ合成とChain-of-Thought deductionファインチューニングを統合する新しいフレームワークであるSynCogを紹介する。
この生成パラダイムは、様々な言語にまたがる臨床コーパスの迅速でゼロショット展開を可能にする。
ADReSSとADReSSoベンチマークの実験は、限られた臨床データを合成表現型で増強することで、競争力のある診断性能が得られることを示した。
論文 参考訳(メタデータ) (2026-02-08T14:10:05Z) - One-shot synthesis of rare gastrointestinal lesions improves diagnostic accuracy and clinical training [45.49415063761575]
EndoRareは、単一の参照画像から多種多様な高忠実度病変を合成する、ワンショットでリトレーニング不要な生成フレームワークである。
われわれはこの枠組みを4つの稀な病理から検証した。
これらの結果は, コンピュータ支援診断と臨床教育の両方において, 希少なギャップを埋める実践的でデータ効率のよい方法を確立している。
論文 参考訳(メタデータ) (2025-12-30T15:07:09Z) - HARMON-E: Hierarchical Agentic Reasoning for Multimodal Oncology Notes to Extract Structured Data [4.776184995012808]
本稿では,複雑なオンコロジーデータ抽出をモジュール型適応タスクに分解するエージェントフレームワークを提案する。
がん患者2250名を対象に,400,000件以上の非構造的臨床記録とPDFをスキャンし,F1スコアの平均0.93を達成した。
論文 参考訳(メタデータ) (2025-12-22T20:38:30Z) - Clinical NLP with Attention-Based Deep Learning for Multi-Disease Prediction [44.0876796031468]
本稿では,電子健康記録テキストの非構造的性質と高次元意味論的複雑さがもたらす課題について論じる。
情報抽出と多ラベル病予測のための統合モデリングを実現するために,注意機構に基づく深層学習手法を提案する。
論文 参考訳(メタデータ) (2025-07-02T07:45:22Z) - AUTOCT: Automating Interpretable Clinical Trial Prediction with LLM Agents [47.640779069547534]
AutoCTは、大規模言語モデルの推論能力と古典的な機械学習の説明可能性を組み合わせた、新しいフレームワークである。
臨床治験予測タスクにおいて, AutoCT は SOTA 法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2025-06-04T11:50:55Z) - Embedding-Driven Diversity Sampling to Improve Few-Shot Synthetic Data Generation [4.684310901243605]
そこで本研究では,少数の臨床論文から多様性を抽出し,大規模言語モデルを数発のプロンプトでガイドする埋め込み型アプローチを提案する。
われわれは,コサイン類似性とチューリング試験を用いて,実際の臨床テキストとより密に一致した合成ノートを作成した。
論文 参考訳(メタデータ) (2025-01-20T00:16:57Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - TREEMENT: Interpretable Patient-Trial Matching via Personalized Dynamic
Tree-Based Memory Network [54.332862955411656]
臨床試験は薬物開発に不可欠であるが、しばしば高価で非効率な患者募集に苦しむ。
近年,患者と臨床試験を自動マッチングすることで患者採用を高速化する機械学習モデルが提案されている。
本稿では,TREement という名前の動的ツリーベースメモリネットワークモデルを導入する。
論文 参考訳(メタデータ) (2023-07-19T12:35:09Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。