論文の概要: Identifying Imaging Follow-Up in Radiology Reports: A Comparative Analysis of Traditional ML and LLM Approaches
- arxiv url: http://arxiv.org/abs/2511.11867v1
- Date: Fri, 14 Nov 2025 20:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.351031
- Title: Identifying Imaging Follow-Up in Radiology Reports: A Comparative Analysis of Traditional ML and LLM Approaches
- Title(参考訳): 放射線診断における画像フォローアップの同定 : 従来のML法とLCM法の比較検討
- Authors: Namu Park, Giridhar Kaushik Ramachandran, Kevin Lybarger, Fei Xia, Ozlem Uzuner, Meliha Yetisgen, Martin Gunn,
- Abstract要約: 586例から6,393例の注釈付きコーパスを報告した。
我々は、ロジスティック回帰(LR)、サポートベクタマシン(SVM)、Longformer、そして完全に微調整されたLlama3-8B-インストラクトを含む従来の機械学習分類器を比較した。
GPT-4oとオープンソースのGPT-OSS-20Bを2つの構成で評価した。
- 参考スコア(独自算出の注目度): 8.864020712680976
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown considerable promise in clinical natural language processing, yet few domain-specific datasets exist to rigorously evaluate their performance on radiology tasks. In this work, we introduce an annotated corpus of 6,393 radiology reports from 586 patients, each labeled for follow-up imaging status, to support the development and benchmarking of follow-up adherence detection systems. Using this corpus, we systematically compared traditional machine-learning classifiers, including logistic regression (LR), support vector machines (SVM), Longformer, and a fully fine-tuned Llama3-8B-Instruct, with recent generative LLMs. To evaluate generative LLMs, we tested GPT-4o and the open-source GPT-OSS-20B under two configurations: a baseline (Base) and a task-optimized (Advanced) setting that focused inputs on metadata, recommendation sentences, and their surrounding context. A refined prompt for GPT-OSS-20B further improved reasoning accuracy. Performance was assessed using precision, recall, and F1 scores with 95% confidence intervals estimated via non-parametric bootstrapping. Inter-annotator agreement was high (F1 = 0.846). GPT-4o (Advanced) achieved the best performance (F1 = 0.832), followed closely by GPT-OSS-20B (Advanced; F1 = 0.828). LR and SVM also performed strongly (F1 = 0.776 and 0.775), underscoring that while LLMs approach human-level agreement through prompt optimization, interpretable and resource-efficient models remain valuable baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)は、臨床自然言語処理においてかなり有望であるが、放射線学のタスクにおいてその性能を厳格に評価する領域固有のデータセットはほとんど存在しない。
本研究は,586例の放射線診断報告6,393件の注記コーパスを導入し,追跡画像診断システムの開発と評価を支援する。
このコーパスを用いて、ロジスティック回帰(LR)、サポートベクターマシン(SVM)、Longformer、そしてLlama3-8B-インストラクトを含む従来の機械学習分類器と最近のジェネレーションLLMとを体系的に比較した。
GPT-4oとオープンソースのGPT-OSS-20Bをベースライン(Base)とタスク最適化(Advanced)の2つの設定で評価した。
GPT-OSS-20Bの改良されたプロンプトにより推論精度が向上した。
非パラメトリックブートストラッピングにより95%信頼区間を推定し,精度,リコール,F1スコアを用いて評価した。
アノテーション間の合意は高い(F1 = 0.846)。
GPT-4o (Advanced) は最高性能(F1 = 0.832)を達成し、その後 GPT-OSS-20B (Advanced; F1 = 0.828) に近づいた。
LRとSVMも強く(F1 = 0.776 と 0.775 )、LLMは迅速な最適化によって人間レベルの合意にアプローチするが、解釈可能で資源効率のよいモデルは価値あるベースラインのままである。
関連論文リスト
- Automated Analysis of Learning Outcomes and Exam Questions Based on Bloom's Taxonomy [0.0]
本稿では,ブルームの分類に基づく試験質問と学習結果の自動分類について検討する。
6つの認知カテゴリをラベル付けした600文の小さなデータセットを、従来の機械学習(ML)モデルを用いて処理した。
論文 参考訳(メタデータ) (2025-11-14T02:31:12Z) - Adapting General-Purpose Foundation Models for X-ray Ptychography in Low-Data Regimes [8.748610895973075]
PtychoBenchはptychographic analysisの新しいベンチマークである。
我々は、SFT(Supervised Fine-Tuning)とICL(In-Context Learning)の2つの専門化戦略を比較した。
その結果,最適な特殊化経路はタスク依存であることが判明した。
論文 参考訳(メタデータ) (2025-11-04T11:43:05Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Large Language Models for Automating Clinical Data Standardization: HL7 FHIR Use Case [0.2516393111664279]
本稿では、構造化された臨床データセットをHL7 FHIRフォーマットに変換するための半自動アプローチを提案する。
最初のベンチマークでは、リソースの識別は完全なF1スコアに達し、GPT-4oはLlama 3.2を上回った。
誤り解析により,非存在属性の幻覚や粒度のミスマッチが検出され,より詳細なプロンプトが軽減されることがわかった。
論文 参考訳(メタデータ) (2025-07-03T17:32:57Z) - Scalable Unit Harmonization in Medical Informatics via Bayesian-Optimized Retrieval and Transformer-Based Re-ranking [0.0]
我々は,大規模臨床データセットにおける一貫性のない単位を調和させるスケーラブルな手法を開発した。
フィルタリング、識別、調和提案生成、自動再ランク付け、手動検証といったマルチステージパイプラインを実装している。
このシステムはランク1で83.39%の精度、ランク5で94.66%のリコールを達成した。
論文 参考訳(メタデータ) (2025-05-01T19:09:15Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。