論文の概要: Automated Identification of Incidentalomas Requiring Follow-Up: A Multi-Anatomy Evaluation of LLM-Based and Supervised Approaches
- arxiv url: http://arxiv.org/abs/2512.05537v1
- Date: Fri, 05 Dec 2025 08:49:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.96861
- Title: Automated Identification of Incidentalomas Requiring Follow-Up: A Multi-Anatomy Evaluation of LLM-Based and Supervised Approaches
- Title(参考訳): フォローアップを必要とするインシデントアロマの自動同定 : LLMに基づく複数解剖学的検討
- Authors: Namu Park, Farzad Ahmed, Zhaoyi Sun, Kevin Lybarger, Ethan Breinhorst, Julie Hu, Ozlem Uzuner, Martin Gunn, Meliha Yetisgen,
- Abstract要約: インシデントアロマの微細な病変レベル検出のために,大規模言語モデル(LLM)を教師付きベースラインと比較した。
そこで我々は,病変タグ付き入力と解剖学的認識を用いた新しい推論手法を導入し,基礎モデル推論を推し進めた。
解剖学的インフォームドGPT-OSS-20bモデルが最も高い性能を示し, 奇形腫陽性マクロF1の0.79。
- 参考スコア(独自算出の注目度): 5.958100741754613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective: To evaluate large language models (LLMs) against supervised baselines for fine-grained, lesion-level detection of incidentalomas requiring follow-up, addressing the limitations of current document-level classification systems. Methods: We utilized a dataset of 400 annotated radiology reports containing 1,623 verified lesion findings. We compared three supervised transformer-based encoders (BioClinicalModernBERT, ModernBERT, Clinical Longformer) against four generative LLM configurations (Llama 3.1-8B, GPT-4o, GPT-OSS-20b). We introduced a novel inference strategy using lesion-tagged inputs and anatomy-aware prompting to ground model reasoning. Performance was evaluated using class-specific F1-scores. Results: The anatomy-informed GPT-OSS-20b model achieved the highest performance, yielding an incidentaloma-positive macro-F1 of 0.79. This surpassed all supervised baselines (maximum macro-F1: 0.70) and closely matched the inter-annotator agreement of 0.76. Explicit anatomical grounding yielded statistically significant performance gains across GPT-based models (p < 0.05), while a majority-vote ensemble of the top systems further improved the macro-F1 to 0.90. Error analysis revealed that anatomy-aware LLMs demonstrated superior contextual reasoning in distinguishing actionable findings from benign lesions. Conclusion: Generative LLMs, when enhanced with structured lesion tagging and anatomical context, significantly outperform traditional supervised encoders and achieve performance comparable to human experts. This approach offers a reliable, interpretable pathway for automated incidental finding surveillance in radiology workflows.
- Abstract(参考訳): 目的: 大規模言語モデル (LLM) を教師付きベースラインに対して評価し, 現状の文書レベルの分類システムの限界に対処する。
方法: 病変1,623例を含む400例の注記X線検査データを用いて検討した。
教師付きトランス (BioClinicalModernBERT, ModernBERT, Clinical Longformer) を4つの生成LDM構成 (Llama 3.1-8B, GPT-4o, GPT-OSS-20b) と比較した。
そこで我々は,病変タグ付き入力と解剖学的認識を用いた新しい推論手法を導入し,基礎モデル推論を推し進めた。
評価はクラス固有のF1スコアを用いて行った。
結果: 解剖学的インフォームドGPT-OSS-20bモデルが最も高い性能を示し, 奇形腫陽性マクロF1は0.79。
これはすべての教師付きベースライン(最大マクロF1:0.70)を超え、アノテーション間の合意である0.76と密接に一致した。
明らかな解剖学的接地により、GPTベースのモデル間で統計的に有意な性能向上(p < 0.05)が得られたが、上位システムの多数投票によるアンサンブルによりマクロF1は0.90に改善された。
病理組織学的検討の結果, 良性病変との鑑別において, 解剖学的に有意な文脈推論が得られた。
結論: 構造的病変のタグ付けと解剖学的文脈で拡張されたLLMは、従来の教師付きエンコーダを著しく上回り、人間の専門家に匹敵するパフォーマンスを達成する。
このアプローチは、放射線学のワークフローにおける自動インシデント検出監視のための信頼性の高い解釈可能な経路を提供する。
関連論文リスト
- Identifying Imaging Follow-Up in Radiology Reports: A Comparative Analysis of Traditional ML and LLM Approaches [8.864020712680976]
586例から6,393例の注釈付きコーパスを報告した。
我々は、ロジスティック回帰(LR)、サポートベクタマシン(SVM)、Longformer、そして完全に微調整されたLlama3-8B-インストラクトを含む従来の機械学習分類器を比較した。
GPT-4oとオープンソースのGPT-OSS-20Bを2つの構成で評価した。
論文 参考訳(メタデータ) (2025-11-14T20:55:44Z) - Automated Multi-label Classification of Eleven Retinal Diseases: A Benchmark of Modern Architectures and a Meta-Ensemble on a Large Synthetic Dataset [1.996975578218265]
我々は、11の網膜疾患を分類するエンドツーエンドのディープラーニングパイプラインを開発した。
合成データのみに訓練されたモデルは,複数の病態を正確に分類し,実際の臨床画像に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2025-08-21T22:09:53Z) - Organ-Agents: Virtual Human Physiology Simulator via LLMs [66.40796430669158]
オルガン-エージェント(Organ-Agents)は、LDM駆動のエージェントを介して人間の生理学をシミュレートする多エージェントフレームワークである。
症例は7,134例,コントロール7,895例で,9系統および125変数にわたる高分解能トラジェクトリを作成した。
臓器抗原は4,509人の保留患者に対して高いシミュレーション精度を達成し, システムごとのMSE0.16とSOFA系重症度層間の堅牢性を示した。
論文 参考訳(メタデータ) (2025-08-20T01:58:45Z) - LRMR: LLM-Driven Relational Multi-node Ranking for Lymph Node Metastasis Assessment in Rectal Cancer [12.795639054336226]
直腸癌リンパ節転移の術前評価は治療決定を導く。
一部の人工知能モデルはブラックボックスとして機能し、臨床信頼に必要な解釈性に欠ける。
LLM-Driven Multi-node Ranking frameworkであるLRMRを紹介する。
論文 参考訳(メタデータ) (2025-07-15T16:29:45Z) - Predicting Length of Stay in Neurological ICU Patients Using Classical Machine Learning and Neural Network Models: A Benchmark Study on MIMIC-IV [49.1574468325115]
本研究は、MIMIC-IVデータセットに基づく神経疾患患者を対象とした、ICUにおけるLOS予測のための複数のMLアプローチについて検討する。
評価されたモデルには、古典的MLアルゴリズム(K-Nearest Neighbors、Random Forest、XGBoost、CatBoost)とニューラルネットワーク(LSTM、BERT、テンポラルフュージョントランス)が含まれる。
論文 参考訳(メタデータ) (2025-05-23T14:06:42Z) - ChestX-Reasoner: Advancing Radiology Foundation Models with Reasoning through Step-by-Step Verification [57.22053411719822]
ChestX-Reasoner(チェストX-Reasoner)は、臨床報告から直接採掘されるプロセスの監督を活用するために設計された放射線診断MLLMである。
我々の2段階のトレーニングフレームワークは、モデル推論と臨床標準との整合性を高めるために、プロセス報酬によって指導された教師付き微調整と強化学習を組み合わせる。
論文 参考訳(メタデータ) (2025-04-29T16:48:23Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Explainable AI for Mental Health Emergency Returns: Integrating LLMs with Predictive Modeling [2.466324275447403]
救急部門(ED)は精神状態の回復が大きな医療負担となり、患者の24-27%が30日以内に帰国する。
大規模言語モデル(LLM)と機械学習を統合することにより、EDメンタルヘルスリターンリスクモデルの予測精度と臨床的解釈性が向上するか否かを評価する。
論文 参考訳(メタデータ) (2025-01-21T15:41:20Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。