論文の概要: RSNA Large Language Model Benchmark Dataset for Chest Radiographs of Cardiothoracic Disease: Radiologist Evaluation and Validation Enhanced by AI Labels (REVEAL-CXR)
- arxiv url: http://arxiv.org/abs/2601.15129v1
- Date: Wed, 21 Jan 2026 16:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.447055
- Title: RSNA Large Language Model Benchmark Dataset for Chest Radiographs of Cardiothoracic Disease: Radiologist Evaluation and Validation Enhanced by AI Labels (REVEAL-CXR)
- Title(参考訳): 心臓胸部疾患の胸部X線写真に対するRSNA大言語モデルベンチマークデータセット : AI Labels(REVEAL-CXR)による評価と検証
- Authors: Yishu Wei, Adam E. Flanders, Errol Colak, John Mongan, Luciano M Prevedello, Po-Hao Chen, Henrique Min Ho Lee, Gilberto Szarf, Hamilton Shoji, Jason Sho, Katherine Andriole, Tessa Cook, Lisa C. Adams, Linda C. Chu, Maggie Chung, Geraldine Brusca-Augello, Djeven P. Deva, Navneet Singh, Felipe Sanchez Tijmes, Jeffrey B. Alpert, Elsie T. Nguyen, Drew A. Torigian, Kate Hanneman, Lauren K Groner, Alexander Phan, Ali Islam, Matias F. Callejas, Gustavo Borges da Silva Teles, Faisal Jamal, Maryam Vazirabad, Ali Tejani, Hari Trivedi, Paulo Kuriki, Rajesh Bhayana, Elana T. Benishay, Yi Lin, Yifan Peng, George Shih,
- Abstract要約: GPT-4oは13,735個の胸部X線写真から異常所見を抽出した。
専門家のレビューのために、AIが推奨するベンチマークラベルに基づいて1000がサンプリングされた。
17名の胸部放射線科医が参加し、「Agree all」「Agree mostly」「Disagree」と名づけた。
- 参考スコア(独自算出の注目度): 27.699008063855146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models have demonstrated comparable performance to that of radiology trainees on multiple-choice board-style exams. However, to develop clinically useful multimodal LLM tools, high-quality benchmarks curated by domain experts are essential. To curate released and holdout datasets of 100 chest radiographic studies each and propose an artificial intelligence (AI)-assisted expert labeling procedure to allow radiologists to label studies more efficiently. A total of 13,735 deidentified chest radiographs and their corresponding reports from the MIDRC were used. GPT-4o extracted abnormal findings from the reports, which were then mapped to 12 benchmark labels with a locally hosted LLM (Phi-4-Reasoning). From these studies, 1,000 were sampled on the basis of the AI-suggested benchmark labels for expert review; the sampling algorithm ensured that the selected studies were clinically relevant and captured a range of difficulty levels. Seventeen chest radiologists participated, and they marked "Agree all", "Agree mostly" or "Disagree" to indicate their assessment of the correctness of the LLM suggested labels. Each chest radiograph was evaluated by three experts. Of these, at least two radiologists selected "Agree All" for 381 radiographs. From this set, 200 were selected, prioritizing those with less common or multiple finding labels, and divided into 100 released radiographs and 100 reserved as the holdout dataset. The holdout dataset is used exclusively by RSNA to independently evaluate different models. A benchmark of 200 chest radiographic studies with 12 benchmark labels was created and made publicly available https://imaging.rsna.org, with each chest radiograph verified by three radiologists. In addition, an AI-assisted labeling procedure was developed to help radiologists label at scale, minimize unnecessary omissions, and support a semicollaborative environment.
- Abstract(参考訳): マルチモーダルな大規模言語モデルは、複数選択のボードスタイルの試験において、放射線学の研修生と同等のパフォーマンスを示した。
しかし、臨床的に有用なマルチモーダルLCMツールを開発するためには、ドメインの専門家による高品質なベンチマークが不可欠である。
放射線学者が研究をより効率的にラベル付けできるように、それぞれ100個の胸部X線写真研究の公開および保持データセットをキュレートし、人工知能支援の専門家ラベル付け手順を提案する。
13,735個の胸部X線写真とそれに対応するMIDRCの報告を用いた。
GPT-4oは、レポートから異常な結果を抽出し、12のベンチマークラベルにローカルにホストされたLLM(Phi-4-Reasoning)でマッピングした。
これらの研究から、専門家のレビューのためにAIが提案するベンチマークラベルに基づいて1000個のサンプルがサンプリングされ、サンプリングアルゴリズムは、選択された研究が臨床的に関連があることを保証し、さまざまな難易度をキャプチャした。
17名の胸部放射線科医が参加し、「Agree all」「Agree mostly」「Disagree」と名づけた。
胸部X線写真は3名の専門家により評価された。
このうち、少なくとも2人の放射線学者が381本のラジオグラフィーに「Agree All」を選んだ。
このセットから200が選択され、通常または複数の発見ラベルの少ないラベルを優先順位付けし、100個のリリースされたラジオグラフと100個のホールドアウトデータセットに分割された。
ホールドアウトデータセットはRSNAによって独立して異なるモデルを評価するためにのみ使用される。
12のベンチマークラベルを持つ200の胸部X線写真研究のベンチマークが作成され、https://imaging.rsna.orgで公開され、各胸部X線写真は3人の放射線学者によって検証された。
さらに、放射線学者が大規模にラベル付けし、不要な省略を最小化し、セミコラボレーティブ環境をサポートするために、AI支援ラベリング手順が開発された。
関連論文リスト
- Closing the Performance Gap Between AI and Radiologists in Chest X-Ray Reporting [40.40577855417923]
胸部X線レポート生成のための臨床評価型マルチモーダルAIモデルMAIRA-Xを紹介する。
タイプや縦方向の変化,配置などの属性を報告する上での精度を評価するために,新しいL&T特化メトリクスフレームワークを開発した。
以上の結果から,MAIRA-Xは放射線科医,特に高用量臨床現場で効果的に治療できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-11-21T10:53:26Z) - ChatRadio-Valuer: A Chat Large Language Model for Generalizable
Radiology Report Generation Based on Multi-institution and Multi-system Data [115.0747462486285]
ChatRadio-Valuerは、一般化可能な表現を学習する自動放射線学レポート生成のための調整されたモデルである。
本研究で利用した臨床データセットは,textbf332,673の顕著な総計を含む。
ChatRadio-Valuerは、最先端のモデル、特にChatGPT(GPT-3.5-Turbo)やGPT-4などより一貫して優れている。
論文 参考訳(メタデータ) (2023-10-08T17:23:17Z) - Act Like a Radiologist: Radiology Report Generation across Anatomical Regions [50.13206214694885]
X-RGenは6つの解剖学的領域にわたる放射線学者によるレポート生成フレームワークである。
X-RGenでは、ヒトの放射線学者の行動を模倣し、これらを4つの主要な段階に分解する。
画像エンコーダの認識能力は,各領域にまたがる画像やレポートを分析して向上する。
論文 参考訳(メタデータ) (2023-05-26T07:12:35Z) - Advancing Radiograph Representation Learning with Masked Record Modeling [52.04899592688968]
我々は2つの相補的な目的として自己と報告の補完を定式化し、マスク付きレコードモデリング(MRM)に基づく統一的な枠組みを提案する。
MRMは、知識強化されたセマンティック表現を学ぶためのマルチタスクスキームに従って、マスクされた画像パッチとマスクされたレポートトークンを再構築する。
具体的には、MRMはラベル効率の良い微調整において優れた性能を提供する。
論文 参考訳(メタデータ) (2023-01-30T18:33:32Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Robust Classification from Noisy Labels: Integrating Additional
Knowledge for Chest Radiography Abnormality Assessment [14.631388658828921]
大規模な公開データセットの導入は、自動異常分類のための一連の新しいシステムに繋がった。
このような最適データからラベルノイズを処理する新しいトレーニング戦略を提案します。
平均AUCスコアが0.880の全ての異常に対して、提案したトレーニング戦略は、パフォーマンススコアを著しく向上させるのに有効である。
論文 参考訳(メタデータ) (2021-04-12T07:51:07Z) - VisualCheXbert: Addressing the Discrepancy Between Radiology Report
Labels and Image Labels [4.865330207715854]
胸部x線画像のラベリングには放射線科医の意見が異なっていた。
画像のラベリングとよりよく一致したラジオロジーレポートからラベルを作成する手法を開発し,評価する。
論文 参考訳(メタデータ) (2021-02-23T03:02:36Z) - Automated Radiological Report Generation For Chest X-Rays With
Weakly-Supervised End-to-End Deep Learning [17.315387269810426]
我々は12,000以上のCXRスキャンと放射線学的レポートを含むデータベースを構築した。
我々は,深層畳み込みニューラルネットワークとアテンション機構を持つリカレントネットワークに基づくモデルを開発した。
このモデルは、与えられたスキャンを自動的に認識し、レポートを生成する。
論文 参考訳(メタデータ) (2020-06-18T08:12:54Z) - Machine-Learning-Based Multiple Abnormality Prediction with Large-Scale
Chest Computed Tomography Volumes [64.21642241351857]
19,993症例から36,316巻の胸部CTデータセットを収集,解析した。
自由テキストラジオグラフィーレポートから異常ラベルを自動的に抽出するルールベース手法を開発した。
胸部CTボリュームの多臓器・多臓器分類モデルも開発した。
論文 参考訳(メタデータ) (2020-02-12T00:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。