論文の概要: S-RRG-Bench: Structured Radiology Report Generation with Fine-Grained Evaluation Framework
- arxiv url: http://arxiv.org/abs/2508.02082v1
- Date: Mon, 04 Aug 2025 05:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.191874
- Title: S-RRG-Bench: Structured Radiology Report Generation with Fine-Grained Evaluation Framework
- Title(参考訳): S-RRG-Bench:微粒化評価フレームワークを用いた構造放射線学レポート作成
- Authors: Yingshu Li, Yunyi Liu, Zhanyu Wang, Xinyu Liang, Lingqiao Liu, Lei Wang, Luping Zhou,
- Abstract要約: 胸部X線などの診断画像のための放射線診断レポート生成(RRG)は、臨床とAIの両方において重要な役割を担っている。
従来のフリーテキストレポートは冗長性と一貫性のない言語に悩まされ、臨床的に重要な詳細の抽出が複雑になる。
本稿では、データセット構築、モデルトレーニング、新しい評価フレームワークの導入を含む、S-RRGに対する新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 39.542375803362965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiology report generation (RRG) for diagnostic images, such as chest X-rays, plays a pivotal role in both clinical practice and AI. Traditional free-text reports suffer from redundancy and inconsistent language, complicating the extraction of critical clinical details. Structured radiology report generation (S-RRG) offers a promising solution by organizing information into standardized, concise formats. However, existing approaches often rely on classification or visual question answering (VQA) pipelines that require predefined label sets and produce only fragmented outputs. Template-based approaches, which generate reports by replacing keywords within fixed sentence patterns, further compromise expressiveness and often omit clinically important details. In this work, we present a novel approach to S-RRG that includes dataset construction, model training, and the introduction of a new evaluation framework. We first create a robust chest X-ray dataset (MIMIC-STRUC) that includes disease names, severity levels, probabilities, and anatomical locations, ensuring that the dataset is both clinically relevant and well-structured. We train an LLM-based model to generate standardized, high-quality reports. To assess the generated reports, we propose a specialized evaluation metric (S-Score) that not only measures disease prediction accuracy but also evaluates the precision of disease-specific details, thus offering a clinically meaningful metric for report quality that focuses on elements critical to clinical decision-making and demonstrates a stronger alignment with human assessments. Our approach highlights the effectiveness of structured reports and the importance of a tailored evaluation metric for S-RRG, providing a more clinically relevant measure of report quality.
- Abstract(参考訳): 胸部X線などの診断画像のための放射線診断レポート生成(RRG)は、臨床とAIの両方において重要な役割を担っている。
従来のフリーテキストレポートは冗長性と一貫性のない言語に悩まされ、臨床的詳細の抽出が複雑になる。
構造化ラジオロジーレポート生成(S-RRG)は、情報を標準化された簡潔なフォーマットに整理することで、有望なソリューションを提供する。
しかしながら、既存のアプローチは、事前に定義されたラベルセットを必要とし、断片化された出力のみを生成する、分類や視覚的質問応答(VQA)パイプラインに依存していることが多い。
テンプレートベースのアプローチは、固定文パターン内のキーワードを置換することでレポートを生成し、さらに妥協表現性を高め、臨床上重要な詳細を省略する。
本研究では,データセット構築やモデルトレーニング,新たな評価フレームワークの導入など,S-RRGの新たなアプローチを提案する。
まず、病名、重症度、確率、解剖学的位置を含む堅牢な胸部X線データセット(MIMIC-STRUC)を作成し、そのデータセットが臨床的に関連し、十分に構造化されていることを確認した。
LLMベースのモデルをトレーニングして、標準化された高品質なレポートを生成する。
そこで本研究では, 疾患予測精度だけでなく, 疾患特異的詳細の精度も測定し, 臨床診断に重要な要素に着目し, 人的評価との整合性を示す, 報告品質に関する臨床的に有意な指標を提供する, 評価基準(Sスコア)を提案する。
本研究は, 構造化レポートの有効性と, S-RRG の適合評価指標の重要性を強調し, 報告品質のより臨床的な指標を提供する。
関連論文リスト
- Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation [32.410641778559544]
ICARE (Interpretable and Clinicallygrounded Agent-based Report Evaluation) は、解釈可能な評価フレームワークである。
2つのエージェントは、それぞれが基礎的真実または生成されたレポートを持ち、臨床的に有意義な質問を発生し、互いにクイズする。
スコアを質問応答ペアにリンクすることで、ICAREは透明で解釈可能な評価を可能にする。
論文 参考訳(メタデータ) (2025-08-04T18:28:03Z) - Automated Structured Radiology Report Generation [11.965406008391371]
本稿では,自由テキストラジオロジーレポートを標準化形式に再構成する新しいタスクであるStructured Radiology Report Generation (SRRG)を紹介する。
我々は,大規模言語モデル (LLM) を用いてレポートを再構成し,厳密な構造化されたレポートデシダタに追従して,新しいデータセットを作成する。
また,55ラベルを用いた詳細な疾患分類モデルであるSRR-BERTを導入し,構造化レポートのより正確かつ臨床的に評価した。
論文 参考訳(メタデータ) (2025-05-30T05:23:01Z) - CLEAR: A Clinically-Grounded Tabular Framework for Radiology Report Evaluation [19.416198842242856]
専門ラベルを用いた臨床評価フレームワークと放射線診断報告評価のための属性レベル比較(CLEAR)について紹介する。
CLEARは、報告書が医療状況の有無を正確に特定できるかどうかを調べる。
CLEARの臨床的アライメントを測定するため,MIMIC-CXRから得られた100個の胸部X線所見のデータセットであるCLEAR-Benchを開発した。
論文 参考訳(メタデータ) (2025-05-22T07:32:12Z) - GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。
GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文 参考訳(メタデータ) (2025-03-07T11:42:22Z) - Improving Radiology Report Conciseness and Structure via Local Large Language Models [0.0]
放射線医学の報告は長大で非構造的であり、医師を参照する上での課題である。
この振り返り研究は、簡潔でよく構造化された放射線学レポートを強化することを目的としていた。
論文 参考訳(メタデータ) (2024-11-06T19:00:57Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - FlexR: Few-shot Classification with Language Embeddings for Structured
Reporting of Chest X-rays [37.15474283789249]
構造化された報告テンプレートにおける文によって定義される臨床所見を予測する手法を提案する。
この手法は、胸部X線と関連する自由テキストラジオグラフィーレポートを用いて、対照的な言語画像モデルを訓練することを含む。
その結果, 訓練用画像レベルのアノテーションが限られている場合でも, 胸部X線における重症度評価の構造化された報告タスクを達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T16:31:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。