論文の概要: Standardizing Longitudinal Radiology Report Evaluation via Large Language Model Annotation
- arxiv url: http://arxiv.org/abs/2601.16753v1
- Date: Fri, 23 Jan 2026 13:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.704493
- Title: Standardizing Longitudinal Radiology Report Evaluation via Large Language Model Annotation
- Title(参考訳): 大規模言語モデルアノテーションによる縦断放射線診断の標準化
- Authors: Xinyi Wang, Grazziela Figueredo, Ruizhe Li, Xin Chen,
- Abstract要約: 放射線学報告における縦断的な情報は、時間とともに複数の検査にまたがる結果のシーケンシャルな追跡を指す。
基盤構造とモデル生成の両テキストの時間的変化を一貫してラベル付けする適切なツールは存在しない。
既存のアノテーションメソッドは、通常労働集約的であり、手動のレキシコンとルールの使用に依存している。
- 参考スコア(独自算出の注目度): 10.771534459008699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Longitudinal information in radiology reports refers to the sequential tracking of findings across multiple examinations over time, which is crucial for monitoring disease progression and guiding clinical decisions. Many recent automated radiology report generation methods are designed to capture longitudinal information; however, validating their performance is challenging. There is no proper tool to consistently label temporal changes in both ground-truth and model-generated texts for meaningful comparisons. Existing annotation methods are typically labor-intensive, relying on the use of manual lexicons and rules. Complex rules are closed-source, domain specific and hard to adapt, whereas overly simple ones tend to miss essential specialised information. Large language models (LLMs) offer a promising annotation alternative, as they are capable of capturing nuanced linguistic patterns and semantic similarities without extensive manual intervention. They also adapt well to new contexts. In this study, we therefore propose an LLM-based pipeline to automatically annotate longitudinal information in radiology reports. The pipeline first identifies sentences containing relevant information and then extracts the progression of diseases. We evaluate and compare five mainstream LLMs on these two tasks using 500 manually annotated reports. Considering both efficiency and performance, Qwen2.5-32B was subsequently selected and used to annotate another 95,169 reports from the public MIMIC-CXR dataset. Our Qwen2.5-32B-annotated dataset provided us with a standardized benchmark for evaluating report generation models. Using this new benchmark, we assessed seven state-of-the-art report generation models. Our LLM-based annotation method outperforms existing annotation solutions, achieving 11.3\% and 5.3\% higher F1-scores for longitudinal information detection and disease tracking, respectively.
- Abstract(参考訳): 放射線医学報告における縦断的な情報は、疾患の進行をモニターし、臨床上の決定を導くために不可欠である複数の検査を経時的に連続的に追跡することを指す。
近年,多くの自動放射線診断レポート生成手法は縦方向情報をキャプチャするために設計されているが,その性能の検証は困難である。
意味のある比較のために、基底構造とモデル生成の両テキストの時間的変化を一貫してラベル付けする適切なツールは存在しない。
既存のアノテーションメソッドは、通常労働集約的であり、手動のレキシコンとルールの使用に依存している。
複雑なルールはクローズドソースであり、ドメイン固有であり、適応が難しい。
大きな言語モデル(LLM)は、手作業による介入なしに、ニュアンスのある言語パターンや意味的な類似性をキャプチャできるので、有望なアノテーションの代替を提供する。
また、新しい文脈にも順応する。
そこで本研究では,無線通信における長手情報の自動アノテートのためのLLMパイプラインを提案する。
パイプラインは、まず関連情報を含む文を特定し、疾患の進行を抽出する。
我々は,この2つのタスクに対して,500件のアノテートレポートを用いて5つの主要なLCMを評価し,比較した。
効率と性能の両方を考慮すると、Qwen2.5-32Bはその後選択され、パブリックMIMIC-CXRデータセットからさらに95,169のレポートを注釈付けするために使用された。
Qwen2.5-32Bアノテーション付きデータセットは、レポート生成モデルを評価するための標準ベンチマークを提供してくれました。
このベンチマークを用いて、7つの最新レポート生成モデルを評価した。
LLMに基づくアノテーション法は, 従来のアノテーション法よりも優れており, それぞれ11.3\%, 5.3\%高いF1スコアを経時的情報検出と疾患追跡に用いた。
関連論文リスト
- Ontology-Based Concept Distillation for Radiology Report Retrieval and Labeling [10.504309161945065]
既存のほとんどの手法は、CLIPやCXR-BERTのようなモデルからの高次元テキスト埋め込みを比較することに依存している。
統一医療言語システム(Unified Medical Language System)における臨床基礎概念に基づく放射線学報告テキストの比較のための,新しいオントロジーによる代替案を提案する。
本稿では,RadGraph-XLとSapBERTをベースとした拡張パイプラインを用いて,フリーテキストレポートから標準化された医療機関を抽出する。
論文 参考訳(メタデータ) (2025-08-27T14:20:50Z) - Lunguage: A Benchmark for Structured and Sequential Chest X-ray Interpretation [10.440241401950745]
本稿では,構造化放射線学レポート生成のためのベンチマークデータセットLUNGUAGEを紹介する。
注釈付き胸部X線レポートは1,473件あり、それぞれ専門家がレビューし、そのうち80件は経時的アノテーションを含んでいる。
このベンチマークを用いて、生成したレポートをきめ細かなスキーマ整合構造表現に変換する2段階のフレームワークを開発する。
また、時間的一貫性をモデル化しながら、実体、関係、属性レベルの構造化出力を比較する解釈可能な計量であるLUNGUAGESCOREを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:40:00Z) - High-Fidelity Pseudo-label Generation by Large Language Models for Training Robust Radiology Report Classifiers [0.2158126716116375]
DeBERTa-RADは、最先端のLLM擬似ラベル付けのパワーと、DeBERTaに基づく効率的な知識蒸留を組み合わせた、高精度で高速な胸部X線レポートラベリングのための新しいフレームワークである。
専門家によるMIMIC-500ベンチマークで、DeBERTa-RADは最先端のマクロF1スコア0.9120を達成している。
論文 参考訳(メタデータ) (2025-05-03T04:50:55Z) - HC-LLM: Historical-Constrained Large Language Models for Radiology Report Generation [89.3260120072177]
本稿では,放射線学レポート生成のための歴史制約付き大規模言語モデル (HC-LLM) フレームワークを提案する。
胸部X線写真から経時的特徴と経時的特徴を抽出し,疾患の進行を捉える診断報告を行った。
特に,本手法は,テスト中の履歴データなしでも良好に動作し,他のマルチモーダル大規模モデルにも容易に適用可能である。
論文 参考訳(メタデータ) (2024-12-15T06:04:16Z) - Guidance in Radiology Report Summarization: An Empirical Evaluation and
Error Analysis [3.0204520109309847]
本稿では,放射線診断レポートの要約のためのドメインに依存しない誘導信号を提案する。
我々は,11のきめ細かい誤りの分類に従って,4つのシステムについて専門的な評価を行う。
その結果, 自動要約と放射線科医の違いは, 内容選択に関係していることが判明した。
論文 参考訳(メタデータ) (2023-07-24T13:54:37Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Automated Labeling of German Chest X-Ray Radiology Reports using Deep
Learning [50.591267188664666]
本稿では,ルールベースのドイツ語CheXpertモデルによってラベル付けされたレポートに基づいて,ディープラーニングに基づくCheXpertラベル予測モデルを提案する。
その結果,3つのタスクすべてにおいて,ルールベースモデルを大幅に上回ったアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-06-09T16:08:35Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。