論文の概要: RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review
- arxiv url: http://arxiv.org/abs/2603.06681v1
- Date: Wed, 04 Mar 2026 00:13:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.790871
- Title: RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review
- Title(参考訳): RADAR: 3D画像に基づく放射線学レポートのマルチモーダルベンチマーク
- Authors: Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha,
- Abstract要約: ラジオグラフィーレポートの相違分析のためのマルチモーダル・ベンチマークであるRADARを提案する。
3D画像と予備的なレポートと、それに対応する候補が同じ研究のために編集される。
RADARは、提案された編集を評価するためにモデルを必要とする構造化された不一致評価タスクを定義する。
- 参考スコア(独自算出の注目度): 10.986820518559341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Radiology reports for the same patient examination may contain clinically meaningful discrepancies arising from interpretation differences, reporting variability, or evolving assessments. Systematic analysis of such discrepancies is important for quality assurance, clinical decision support, and multimodal model development, yet remains limited by the lack of standardized benchmarks. We present RADAR, a multimodal benchmark for radiology report discrepancy analysis that pairs 3D medical images with a preliminary report and corresponding candidate edits for the same study. The dataset reflects a standard clinical workflow in which trainee radiologists author preliminary reports that are subsequently reviewed and revised by attending radiologists. RADAR defines a structured discrepancy assessment task requiring models to evaluate proposed edits by determining image-level agreement, assessing clinical severity, and classifying edit type (correction, addition, or clarification). In contrast to prior work emphasizing binary error detection or comparison against fully independent reference reports, RADAR targets fine-grained clinical reasoning and image-text alignment at the report review stage. The benchmark consists of expert-annotated abdominal CT examinations and is accompanied by standardized evaluation protocols to support systematic comparison of multimodal models. RADAR provides a clinically grounded testbed for evaluating multimodal systems as reviewers of radiology report edits.
- Abstract(参考訳): 同じ患者の放射線検査の報告には、解釈の違い、報告のばらつき、または進化する評価から生じる臨床的に有意義な相違が含まれている可能性がある。
このような不一致の体系的分析は、品質保証、臨床決定支援、マルチモーダルモデル開発において重要であるが、標準化されたベンチマークの欠如によって制限されている。
本報告では,3次元医用画像と予備報告と,それに対応する候補編集とを組み合わせたラジオグラフィレポートの相違分析のためのマルチモーダル・ベンチマークであるRADARについて述べる。
このデータセットは、訓練生の放射線科医が予備報告を作成した標準的な臨床ワークフローを反映しており、その後、放射線科医の参加によってレビューされ、改訂される。
RADARは、画像レベルの合意を決定し、臨床的重症度を評価し、編集タイプ(補正、追加、または明確化)を分類することで、提案された編集を評価するモデルを必要とする構造化された不一致評価タスクを定義している。
完全独立参照レポートと比較してバイナリエラーの検出や比較を強調した以前の研究とは対照的に、RADARはレポートレビュー段階における詳細な臨床推論と画像テキストアライメントを目標としている。
このベンチマークは、専門家による腹部CT検査からなり、マルチモーダルモデルの体系的比較をサポートするための標準化された評価プロトコルが付属する。
RADARは、放射線学レポート編集のレビュアーとしてマルチモーダルシステムを評価するための臨床基礎検査ベッドを提供する。
関連論文リスト
- AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。
評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。
実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文 参考訳(メタデータ) (2026-01-23T11:59:13Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - Medical AI Consensus: A Multi-Agent Framework for Radiology Report Generation and Evaluation [0.2039123720459736]
放射線学のエコシステムにおけるマルチモーダルな臨床推論のためのベンチマークおよび評価環境として機能するマルチエージェント強化学習フレームワークを提案する。
提案フレームワークは,画像解析,特徴抽出,レポート生成,レビュー,評価を担当する10の特殊エージェントからなるモジュールアーキテクチャにおいて,大規模言語モデル(LLM)と大規模ビジョンモデル(LVM)を統合する。
論文 参考訳(メタデータ) (2025-09-22T04:31:27Z) - Automated Structured Radiology Report Generation [11.965406008391371]
本稿では,自由テキストラジオロジーレポートを標準化形式に再構成する新しいタスクであるStructured Radiology Report Generation (SRRG)を紹介する。
我々は,大規模言語モデル (LLM) を用いてレポートを再構成し,厳密な構造化されたレポートデシダタに追従して,新しいデータセットを作成する。
また,55ラベルを用いた詳細な疾患分類モデルであるSRR-BERTを導入し,構造化レポートのより正確かつ臨床的に評価した。
論文 参考訳(メタデータ) (2025-05-30T05:23:01Z) - Image-aware Evaluation of Generated Medical Reports [11.190146577567548]
本稿では,X線画像から自動医療報告を生成するための新しい評価基準であるVLScoreを提案する。
測定基準の主な考え方は、対応する画像を考慮して、放射線学報告の類似度を測定することである。
我々は, 放射線学者が2対の報告で誤りを指摘し, 放射線学者の判断と顕著な一致を示したデータセットを用いた評価により, 測定値の利点を実証した。
論文 参考訳(メタデータ) (2024-10-22T18:50:20Z) - RaTEScore: A Metric for Radiology Report Generation [59.37561810438641]
本稿では,Radiological Report (Text) Evaluation (RaTEScore) として,新しい実体認識尺度を提案する。
RaTEScoreは、診断結果や解剖学的詳細などの重要な医療機関を強調し、複雑な医学的同義語に対して堅牢であり、否定表現に敏感である。
我々の評価は、RaTEScoreが既存の指標よりも人間の嗜好とより密接に一致していることを示し、確立された公開ベンチマークと、新たに提案したRaTE-Evalベンチマークの両方で検証した。
論文 参考訳(メタデータ) (2024-06-24T17:49:28Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。