論文の概要: CorBenchX: Large-Scale Chest X-Ray Error Dataset and Vision-Language Model Benchmark for Report Error Correction
- arxiv url: http://arxiv.org/abs/2505.12057v1
- Date: Sat, 17 May 2025 15:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.014647
- Title: CorBenchX: Large-Scale Chest X-Ray Error Dataset and Vision-Language Model Benchmark for Report Error Correction
- Title(参考訳): CorBenchX: レポートエラー訂正のための大規模胸部X線エラーデータセットとビジョン言語モデルベンチマーク
- Authors: Jing Zou, Qingqiu Li, Chenyu Lian, Lihao Liu, Xiaohan Yan, Shujun Wang, Jing Qin,
- Abstract要約: CorBenchXは胸部X線レポートにおける自動エラー検出と修正のためのスイートである。
まず,26,326個の胸部X線誤差の大規模データセットを合成した。
オープンソースとクローズドなビジョン言語モデルの両方をベンチマークします。
- 参考スコア(独自算出の注目度): 11.731590131260424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-driven models have shown great promise in detecting errors in radiology reports, yet the field lacks a unified benchmark for rigorous evaluation of error detection and further correction. To address this gap, we introduce CorBenchX, a comprehensive suite for automated error detection and correction in chest X-ray reports, designed to advance AI-assisted quality control in clinical practice. We first synthesize a large-scale dataset of 26,326 chest X-ray error reports by injecting clinically common errors via prompting DeepSeek-R1, with each corrupted report paired with its original text, error type, and human-readable description. Leveraging this dataset, we benchmark both open- and closed-source vision-language models,(e.g., InternVL, Qwen-VL, GPT-4o, o4-mini, and Claude-3.7) for error detection and correction under zero-shot prompting. Among these models, o4-mini achieves the best performance, with 50.6 % detection accuracy and correction scores of BLEU 0.853, ROUGE 0.924, BERTScore 0.981, SembScore 0.865, and CheXbertF1 0.954, remaining below clinical-level accuracy, highlighting the challenge of precise report correction. To advance the state of the art, we propose a multi-step reinforcement learning (MSRL) framework that optimizes a multi-objective reward combining format compliance, error-type accuracy, and BLEU similarity. We apply MSRL to QwenVL2.5-7B, the top open-source model in our benchmark, achieving an improvement of 38.3% in single-error detection precision and 5.2% in single-error correction over the zero-shot baseline.
- Abstract(参考訳): AI駆動型モデルは放射線学の報告でエラーを検出することに大きな可能性を示してきたが、この分野ではエラー検出とさらなる修正の厳密な評価のための統一されたベンチマークが欠如している。
このギャップに対処するために,臨床実践におけるAI支援品質管理の促進を目的とした,自動エラー検出と修正のための総合的なスイートであるCorBenchXを紹介した。
我々はまず,DeepSeek-R1を誘導して臨床に共通するエラーを注入することにより,26,326個の胸部X線エラーレポートの大規模データセットを合成した。
このデータセットを利用して、ゼロショットプロンプトによるエラー検出と修正のために、オープンソースとクローズドソースの両方のビジョン言語モデル(例えば、InternVL、Qwen-VL、GPT-4o、o4-mini、Claude-3.7)をベンチマークする。
これらのモデルの中で、o4-miniは、BLEU 0.853、ROUGE 0.924、BERTScore 0.981、SembScore 0.865、CheXbertF1 0.954の50.6%の精度と修正スコアで最高の性能を達成し、正確な報告修正の課題を浮き彫りにした。
本稿では,多段階強化学習(MSRL)フレームワークを提案する。このフレームワークは,形式適合性,エラー型精度,BLEU類似性を組み合わせた多目的報酬を最適化する。
MSRLをベンチマークでトップのオープンソースモデルであるQwenVL2.5-7Bに適用し、シングルエラー検出精度が38.3%向上し、ゼロショットベースラインに対するシングルエラー修正が5.2%向上した。
関連論文リスト
- Generative Large Language Models Trained for Detecting Errors in Radiology Reports [11.852981889270012]
このデータセットは、特定のプロンプトを用いてGPT-4によって生成された1,656の合成胸部放射線学報告を含む。
Llama-3、GPT-4、BiomedBERTなどいくつかのモデルはゼロショットプロンプト、少数ショットプロンプト、微調整戦略を用いて改良された。
ゼロショットプロンプトを用いることで、微調整のLlama-3-70B-Instructモデルは、否定誤差0.769、左右誤差0.772、間隔変更エラー0.750、転写エラー0.828、全体の0.780というF1スコアで最高のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-04-06T03:02:36Z) - Agent-Based Uncertainty Awareness Improves Automated Radiology Report Labeling with an Open-Source Large Language Model [1.7064514726335305]
クローン病患者のヘブライ語9,683例について検討した。
我々は不確実性を認識したプロンプトアンサンブルとエージェントに基づく決定モデルを導入した。
論文 参考訳(メタデータ) (2025-02-02T16:57:03Z) - Exploring Multimodal Large Language Models for Radiology Report
Error-checking [1.7217842380976978]
本稿では, 放射線技師が報告の誤りを確認するための補助として, マルチモーダル大言語モデル (LLMs) を用いた最初の臨床応用の1つを提案する。
我々は、実世界の放射線学データセット(X線とCTスキャンを含む)から評価データセットを作成しました。
SIMPLEレベルでは,MIMIC-CXRとIU X線データでそれぞれ47.4%,25.4%向上した。
論文 参考訳(メタデータ) (2023-12-20T15:20:33Z) - Proximity-Informed Calibration for Deep Neural Networks [49.330703634912915]
ProCalは、近接性に基づいてサンプル信頼度を調整する理論的保証を持つプラグアンドプレイアルゴリズムである。
ProCalは、近接バイアスに対処し、バランスの取れた、長い、分布シフトの設定の校正を改善するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-06-07T16:40:51Z) - Learning to diagnose common thorax diseases on chest radiographs from
radiology reports in Vietnamese [0.33598755777055367]
ベトナムの放射線学報告から情報を抽出し,胸部X線(CXR)画像の正確なラベルを提供するデータ収集・アノテーションパイプラインを提案する。
このことは、ベトナムの放射線学者や臨床医が、国によって異なる可能性のある内因性診断カテゴリと密接に一致したデータに注釈を付けることで、ベトナムの放射線技師や臨床医に利益をもたらす可能性がある。
論文 参考訳(メタデータ) (2022-09-11T06:06:03Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - Collaborative Boundary-aware Context Encoding Networks for Error Map
Prediction [65.44752447868626]
本稿では,AEP-Net と呼ばれる協調的コンテキスト符号化ネットワークを提案する。
具体的には、画像とマスクのより優れた特徴融合のための協調的な特徴変換分岐と、エラー領域の正確な局所化を提案する。
AEP-Netはエラー予測タスクの平均DSCが0.8358,0.8164であり、ピアソン相関係数が0.9873である。
論文 参考訳(メタデータ) (2020-06-25T12:42:01Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。