論文の概要: HARMON-E: Hierarchical Agentic Reasoning for Multimodal Oncology Notes to Extract Structured Data
- arxiv url: http://arxiv.org/abs/2512.19864v2
- Date: Fri, 26 Dec 2025 11:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.805913
- Title: HARMON-E: Hierarchical Agentic Reasoning for Multimodal Oncology Notes to Extract Structured Data
- Title(参考訳): HARMON-E:構造化データの抽出のためのマルチモーダルオンコロジーノートのための階層的エージェント推論
- Authors: Shashi Kant Gupta, Arijeet Pramanik, Jerrin John Thomas, Regina Schwind, Lauren Wiener, Avi Raju, Jeremy Kornbluth, Yanshan Wang, Zhaohui Su, Hrituraj Singh,
- Abstract要約: 本稿では,複雑なオンコロジーデータ抽出をモジュール型適応タスクに分解するエージェントフレームワークを提案する。
がん患者2250名を対象に,400,000件以上の非構造的臨床記録とPDFをスキャンし,F1スコアの平均0.93を達成した。
- 参考スコア(独自算出の注目度): 4.776184995012808
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unstructured notes within the electronic health record (EHR) contain rich clinical information vital for cancer treatment decision making and research, yet reliably extracting structured oncology data remains challenging due to extensive variability, specialized terminology, and inconsistent document formats. Manual abstraction, although accurate, is prohibitively costly and unscalable. Existing automated approaches typically address narrow scenarios - either using synthetic datasets, restricting focus to document-level extraction, or isolating specific clinical variables (e.g., staging, biomarkers, histology) - and do not adequately handle patient-level synthesis across the large number of clinical documents containing contradictory information. In this study, we propose an agentic framework that systematically decomposes complex oncology data extraction into modular, adaptive tasks. Specifically, we use large language models (LLMs) as reasoning agents, equipped with context-sensitive retrieval and iterative synthesis capabilities, to exhaustively and comprehensively extract structured clinical variables from real-world oncology notes. Evaluated on a large-scale dataset of over 400,000 unstructured clinical notes and scanned PDF reports spanning 2,250 cancer patients, our method achieves an average F1-score of 0.93, with 100 out of 103 oncology-specific clinical variables exceeding 0.85, and critical variables (e.g., biomarkers and medications) surpassing 0.95. Moreover, integration of the agentic system into a data curation workflow resulted in 0.94 direct manual approval rate, significantly reducing annotation costs. To our knowledge, this constitutes the first exhaustive, end-to-end application of LLM-based agents for structured oncology data extraction at scale
- Abstract(参考訳): 電子健康記録(EHR)内の非構造化ノートには、がん治療決定および研究に不可欠な豊富な臨床情報が含まれているが、広範な変動性、専門用語、一貫性のない文書フォーマットのために、構造化された腫瘍データを確実に抽出することは困難である。
手動の抽象化は正確だが、高価でスケールできない。
既存の自動化アプローチは、合成データセットの使用、文書レベルの抽出へのフォーカスの制限、特定の臨床変数(例えば、ステージング、バイオマーカー、組織学)の分離といった狭いシナリオに対処する。
本研究では,複雑なオンコロジーデータ抽出をモジュール型適応タスクに体系的に分解するエージェントフレームワークを提案する。
具体的には,大規模言語モデル(LLM)を推論エージェントとして使用し,実世界のオンコロジーノートから構造化された臨床変数を包括的かつ包括的に抽出する。
2250人のがん患者を対象に,400,000以上の非構造的臨床記録の大規模データセットとPDFレポートをスキャンし,平均F1スコアが0.93であり,103のオンコロジー特異的な臨床変数のうち100が0.85を超え,重要な変数(バイオマーカー,医薬品など)が0.95を超えている。
さらに、エージェントシステムのデータキュレーションワークフローへの統合により、0.94の直接手作業による承認率が得られ、アノテーションのコストが大幅に削減された。
我々の知る限り、これはLLMベースのエージェントを大規模に構造化したオンコロジーデータ抽出に適用する最初の徹底的エンドツーエンドの応用である。
関連論文リスト
- Leveraging LLMs for Structured Data Extraction from Unstructured Patient Records [0.0]
手動チャートのレビューは、臨床研究において非常に時間がかかり、資源集約的な要素である。
局所展開型大規模言語モデル(LLM)を利用した臨床ノートからの自動特徴抽出のためのフレームワークを提案する。
このフレームワークは、手動のチャートレビューの負担を軽減し、データキャプチャの一貫性を向上させるLLMシステムの可能性を示す。
論文 参考訳(メタデータ) (2025-12-03T14:10:12Z) - Clinically-guided Data Synthesis for Laryngeal Lesion Detection [2.573786844054239]
そこで本研究では,Lyngeal endoscopic image-annotation pairを生成するために,Latent Diffusion Model(LDM)とControlNetアダプタを併用した新しいアプローチを提案する。
提案手法はCADx/eモデルのトレーニングデータセットの拡張に有効であり,喉頭科学における評価プロセスの強化に有効である。
論文 参考訳(メタデータ) (2025-08-08T09:55:54Z) - Clinical NLP with Attention-Based Deep Learning for Multi-Disease Prediction [44.0876796031468]
本稿では,電子健康記録テキストの非構造的性質と高次元意味論的複雑さがもたらす課題について論じる。
情報抽出と多ラベル病予測のための統合モデリングを実現するために,注意機構に基づく深層学習手法を提案する。
論文 参考訳(メタデータ) (2025-07-02T07:45:22Z) - TrialMatchAI: An End-to-End AI-powered Clinical Trial Recommendation System to Streamline Patient-to-Trial Matching [0.0]
本稿では,患者間マッチングを自動化するAIを利用したレコメンデーションシステムTrialMatchAIを提案する。
微調整されたオープンソースの大規模言語モデルに基づいて構築されたTrialMatchAIは、透明性を確保し、軽量なデプロイメントフットプリントを維持する。
現実のバリデーションでは、腫瘍学患者の92%が、少なくとも1つの関連するトライアルを、トップ20のレコメンデーションで回収した。
論文 参考訳(メタデータ) (2025-05-13T12:39:06Z) - PathOrchestra: A Comprehensive Foundation Model for Computational Pathology with Over 100 Diverse Clinical-Grade Tasks [39.97710183184273]
本稿では,300Kの病理スライドからなるデータセット上で,自己教師型学習を通じて学習した多種多様な病理基盤モデルPathOrchestraを提案する。
このモデルは、61のプライベートデータセットと51のパブリックデータセットを組み合わせて、112の臨床的タスクで厳格に評価された。
PathOrchestraは27,755のWSIと9,415,729のROIで例外的なパフォーマンスを示し、47のタスクで0.950以上の精度を達成した。
論文 参考訳(メタデータ) (2025-03-31T17:28:02Z) - Towards Scalable and Cross-Lingual Specialist Language Models for Oncology [4.824906329042275]
汎用大規模モデル(LLM)は、臨床用語、文脈に依存した解釈、マルチモーダルデータ統合といった課題に対処する。
本研究では,教師調律,検索強化生成(RAG),グラフベースの知識統合を組み合わせた,オンコロジー特化,効率的,適応可能なNLPフレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-11T11:34:57Z) - Towards Unifying Anatomy Segmentation: Automated Generation of a
Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines [113.08940153125616]
我々は533巻のボクセルレベルのラベルを142ドル(約1万2000円)で、全身CTスキャンのデータセットを作成し、解剖学的包括的カバレッジを提供する。
提案手法はラベル集約段階において手作業によるアノテーションに依存しない。
我々はCTデータに142ドルの解剖学的構造を予測できる統一解剖学的セグメンテーションモデルをリリースする。
論文 参考訳(メタデータ) (2023-07-25T09:48:13Z) - A Multimodal Transformer: Fusing Clinical Notes with Structured EHR Data
for Interpretable In-Hospital Mortality Prediction [8.625186194860696]
臨床ノートと構造化HRデータを融合し,院内死亡率の予測に役立てる新しいマルチモーダルトランスフォーマーを提案する。
そこで本研究では,臨床ノートにおいて重要な単語を選択するための統合的勾配(IG)手法を提案する。
また,臨床 BERT における領域適応型事前訓練とタスク適応型微調整の重要性についても検討した。
論文 参考訳(メタデータ) (2022-08-09T03:49:52Z) - CODE-AE: A Coherent De-confounding Autoencoder for Predicting
Patient-Specific Drug Response From Cell Line Transcriptomics [35.67979269269178]
我々はコヒーレント・デコンウンディング・オートエンコーダ(CODE-AE)を開発し、コヒーレント・サンプルによって共有される共通生体信号と、各データセットに固有のプライベート表現の両方を抽出する。
CODE-AEは、患者の薬物反応の予測と生物学的シグナルの分解において、最先端の方法に対する精度と堅牢性を大幅に改善する。
論文 参考訳(メタデータ) (2021-01-31T21:17:44Z) - Collaborative residual learners for automatic icd10 prediction using
prescribed medications [45.82374977939355]
本稿では,処方用データのみを用いたicd10符号の自動予測のための協調残差学習モデルを提案する。
平均精度0.71および0.57のマルチラベル分類精度、F1スコア0.57および0.38の0.73および0.44の精度を取得し、患者および外来データセットの主診断をそれぞれ予測します。
論文 参考訳(メタデータ) (2020-12-16T07:07:27Z) - Ensemble model for pre-discharge icd10 coding prediction [45.82374977939355]
正確なコード予測のための複数の臨床データソースを組み込んだアンサンブルモデルを提案する。
平均精度は0.73および0.58、F1スコアは0.56および0.35、患者および外来データセットの主診断予測では0.71および0.4のマルチラベル分類精度を得る。
論文 参考訳(メタデータ) (2020-12-16T07:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。