論文の概要: Multi-RADS Synthetic Radiology Report Dataset and Head-to-Head Benchmarking of 41 Open-Weight and Proprietary Language Models
- arxiv url: http://arxiv.org/abs/2601.03232v1
- Date: Tue, 06 Jan 2026 18:18:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:13.05574
- Title: Multi-RADS Synthetic Radiology Report Dataset and Head-to-Head Benchmarking of 41 Open-Weight and Proprietary Language Models
- Title(参考訳): 41のオープンウェイトおよびプライマリ言語モデルのマルチRADS合成ラジオロジーレポートデータセットとヘッド・ツー・ヘッド・ベンチマーク
- Authors: Kartik Bose, Abhinandan Kumar, Raghuraman Soundararajan, Priya Mudgil, Samonee Ralmilay, Niharika Dutta, Manphool Singhal, Arun Kumar, Saugata Sen, Anurima Patra, Priya Ghosh, Abanti Das, Amit Gupta, Ashish Verma, Dipin Sudhakaran, Ekta Dhamija, Himangi Unde, Ishan Kumar, Krithika Rangarajan, Prerna Garg, Rachel Sequeira, Sudhin Shylendran, Taruna Yadav, Tej Pal, Pankaj Gupta,
- Abstract要約: RXL-RADSetは10個のRADSに1,600の合成放射線学報告を含んでいる。
GPT-5.2は99.8%の妥当性と81.1%の精度(1,600の予測)を達成した。
20-32B の上位 SLM は 99% の正解率と 70% の正解率を得た。
- 参考スコア(独自算出の注目度): 6.715932073716864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Background: Reporting and Data Systems (RADS) standardize radiology risk communication but automated RADS assignment from narrative reports is challenging because of guideline complexity, output-format constraints, and limited benchmarking across RADS frameworks and model sizes. Purpose: To create RXL-RADSet, a radiologist-verified synthetic multi-RADS benchmark, and compare validity and accuracy of open-weight small language models (SLMs) with a proprietary model for RADS assignment. Materials and Methods: RXL-RADSet contains 1,600 synthetic radiology reports across 10 RADS (BI-RADS, CAD-RADS, GB-RADS, LI-RADS, Lung-RADS, NI-RADS, O-RADS, PI-RADS, TI-RADS, VI-RADS) and multiple modalities. Reports were generated by LLMs using scenario plans and simulated radiologist styles and underwent two-stage radiologist verification. We evaluated 41 quantized SLMs (12 families, 0.135-32B parameters) and GPT-5.2 under a fixed guided prompt. Primary endpoints were validity and accuracy; a secondary analysis compared guided versus zero-shot prompting. Results: Under guided prompting GPT-5.2 achieved 99.8% validity and 81.1% accuracy (1,600 predictions). Pooled SLMs (65,600 predictions) achieved 96.8% validity and 61.1% accuracy; top SLMs in the 20-32B range reached ~99% validity and mid-to-high 70% accuracy. Performance scaled with model size (inflection between <1B and >=10B) and declined with RADS complexity primarily due to classification difficulty rather than invalid outputs. Guided prompting improved validity (99.2% vs 96.7%) and accuracy (78.5% vs 69.6%) compared with zero-shot. Conclusion: RXL-RADSet provides a radiologist-verified multi-RADS benchmark; large SLMs (20-32B) can approach proprietary-model performance under guided prompting, but gaps remain for higher-complexity schemes.
- Abstract(参考訳): 背景: RADS(Reporting and Data Systems)は、放射線学のリスクコミュニケーションを標準化するが、物語レポートからのRADSの自動割り当ては、ガイドラインの複雑さ、出力形式制約、RADSフレームワークとモデルサイズによる限られたベンチマークのために困難である。
目的:RXL-RADSetは放射線学者が検証したマルチRADSベンチマークであり,オープンウェイトな小言語モデル(SLM)の妥当性と精度をRADS代入のプロプライエタリなモデルと比較する。
Materials and Methods: RXL-RADSetは10 RADS(BI-RADS, CAD-RADS, GB-RADS, LI-RADS, Lung-RADS, NI-RADS, O-RADS, PI-RADS, TI-RADS, VI-RADS)にまたがる1,600の合成放射線学レポートと複数のモダリティを含んでいる。
シナリオプランとシミュレートされたラジオロジストスタイルを用いて,LSMによって報告が生成され,2段階のラジオロジストによる検証が行われた。
41の量子化SLM (12ファミリー,0.135-32Bパラメータ) と GPT-5.2 を固定誘導プロンプトで評価した。
一次終端は妥当性と精度であり、二次解析ではガイドとゼロショットのプロンプトを比較した。
結果: GPT-5.2の誘導により、99.8%の妥当性と81.1%の精度(1,600の予測)を達成した。
ポーリングされたSLM(65,600)は96.8%の精度と61.1%の精度を達成し、20-32Bの上位のSLMは99%の精度で高い70%の精度を達成した。
性能はモデルサイズ(<1Bと>=10Bのインフレクション)でスケールし、RADSの複雑性により低下した。
改良された妥当性(99.2%対96.7%)と精度(78.5%対69.6%)をゼロショットと比較した。
結論: RXL-RADSet は放射線学者が検証したマルチRADS ベンチマークを提供する; 大きな SLM (20-32B) はガイド付きプロンプトの下でプロプライエタリなモデル性能にアプローチできるが、より複雑なスキームのギャップは残る。
関連論文リスト
- A DeepSeek-Powered AI System for Automated Chest Radiograph Interpretation in Clinical Practice [83.11942224668127]
Janus-Pro-CXR (1B) はDeepSeek Janus-Proモデルに基づく胸部X線解釈システムである。
本システムは, 自動レポート生成において, 最先端のX線レポート生成モデルより優れる。
論文 参考訳(メタデータ) (2025-12-23T13:26:13Z) - From ACR O-RADS 2022 to Explainable Deep Learning: Comparative Performance of Expert Radiologists, Convolutional Neural Networks, Vision Transformers, and Fusion Models in Ovarian Masses [8.734125009057918]
深層学習モデルは、画像に基づく卵巣病変のキャラクタリゼーションにおいて有望であることを示す。
本研究は,O-RADS v2022を応用したラジオロジカル性能の評価を行い,それを先進畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)モデルと比較した。
CNNのAUCは0.620から0.908、AUCは59.2%から86.4%、ViT16-384は0.941、精度は87.4%だった。
論文 参考訳(メタデータ) (2025-11-09T08:36:42Z) - Agentic large language models improve retrieval-based radiology question answering [4.208637377704778]
Radiology Retrieval and Reasoning (RaR)は、放射線学的質問応答のための多段階の検索および推論フレームワークである。
RaRはゼロショットプロンプトや従来のオンラインRAGよりも平均診断精度が有意に向上した。
RaRの検索は幻覚を減少させ(平均9.4%)、臨床的に関連のあるコンテキストを46%の症例で検索した。
論文 参考訳(メタデータ) (2025-08-01T16:18:52Z) - ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge [40.49917730563565]
ESGeniusは、環境、社会、ガバナンス(ESG)における大規模言語モデル(LLM)の熟練度の評価と向上のための総合的なベンチマークである。
ESGenius-QA (i) ESGenius-QA (i) ESGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-QA (i) esGenius-Corpus (i) ESGenius-Corpus (i) ESGenius-Corpusは231の基本的なフレームワーク、標準、レポート、レコメンデーションドキュメントを、7つの権威あるソースから収集した。
論文 参考訳(メタデータ) (2025-06-02T13:19:09Z) - How Well Can Modern LLMs Act as Agent Cores in Radiology Environments? [54.36730060680139]
RadA-BenchPlatは、放射線学環境での大規模言語モデル(LLM)のパフォーマンスをベンチマークする評価プラットフォームである。
また、エージェント駆動型タスク解決ツールの10のカテゴリを定義し、7つの主要なLCMを評価している。
論文 参考訳(メタデータ) (2024-12-12T18:20:16Z) - SMILE-UHURA Challenge -- Small Vessel Segmentation at Mesoscopic Scale from Ultra-High Resolution 7T Magnetic Resonance Angiograms [60.35639972035727]
公開されている注釈付きデータセットの欠如は、堅牢で機械学習駆動のセグメンテーションアルゴリズムの開発を妨げている。
SMILE-UHURAチャレンジは、7T MRIで取得したTime-of-Flightアンジオグラフィーの注釈付きデータセットを提供することで、公開されている注釈付きデータセットのギャップに対処する。
Diceスコアは、それぞれのデータセットで0.838 $pm$0.066と0.716 $pm$ 0.125まで到達し、平均パフォーマンスは0.804 $pm$ 0.15までになった。
論文 参考訳(メタデータ) (2024-11-14T17:06:00Z) - Deep Radiomics Detection of Clinically Significant Prostate Cancer on Multicenter MRI: Initial Comparison to PI-RADS Assessment [0.0]
本研究は,2010年から2020年の間に取得した4つのデータセットから615例(平均年齢63.1+/-7歳)のバイパラメトリック(T2WおよびDW)前立腺MRI配列を分析した。
深部放射線学の機械学習モデルは, 病変レベルではなく, csPCa検出において, PI-RADSアセスメントに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-10-21T17:41:58Z) - RadioRAG: Online Retrieval-augmented Generation for Radiology Question Answering [1.7618750189510493]
大規模言語モデル(LLM)は、しばしば静的トレーニングデータセットに基づいて時代遅れまたは不正確な情報を生成する。
Retrieval-augmented Generation (RAG)は、外部データソースを統合することでこれを緩和する。
RAG(Radio-to-end framework, 無線RAG)は, 信頼できる無線オンラインソースからデータをリアルタイムに取得するフレームワークである。
論文 参考訳(メタデータ) (2024-07-22T13:29:56Z) - CXR-LLAVA: a multimodal large language model for interpreting chest
X-ray images [3.0757789554622597]
本研究の目的は,胸部X線画像(CXR)を解釈するためのオープンソースのマルチモーダル大言語モデル(CXR-LLAVA)を開発することである。
トレーニングでは,592,580個のCXRを収集し,そのうち374,881個のX線写真異常のラベルが得られた。
主な病理所見に対する診断成績と,ヒト放射線技師による放射線学的報告の受容性について検討した。
論文 参考訳(メタデータ) (2023-10-22T06:22:37Z) - Test-Time Adaptation Induces Stronger Accuracy and Agreement-on-the-Line [65.14099135546594]
最近のテスト時間適応 (TTA) 法は, モデルに非常に弱い相関関係を示すシフトであっても, ACL と AGL の傾向を大幅に強化する。
この結果から,TTAとAGLに基づく推定手法を組み合わせることで,より広い分布シフトの集合に対する高精度なモデルOOD性能を推定できることが示唆された。
論文 参考訳(メタデータ) (2023-10-07T23:21:25Z) - Performance of Dual-Augmented Lagrangian Method and Common Spatial
Patterns applied in classification of Motor-Imagery BCI [68.8204255655161]
運動画像に基づく脳-コンピュータインタフェース(MI-BCI)は、神経リハビリテーションのための画期的な技術になる可能性がある。
使用する脳波信号のノイズの性質のため、信頼性の高いBCIシステムは特徴の最適化と抽出のために特別な手順を必要とする。
論文 参考訳(メタデータ) (2020-10-13T20:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。