論文の概要: Fusion-Augmented Large Language Models: Boosting Diagnostic Trustworthiness via Model Consensus
- arxiv url: http://arxiv.org/abs/2510.16057v1
- Date: Thu, 16 Oct 2025 22:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.814559
- Title: Fusion-Augmented Large Language Models: Boosting Diagnostic Trustworthiness via Model Consensus
- Title(参考訳): 統合強化大言語モデル:モデル合意による診断信頼性の向上
- Authors: Md Kamrul Siam, Md Jobair Hossain Faruk, Jerry Q. Cheng, Huanying Gu,
- Abstract要約: 本研究では,胸部X線解釈の信頼性を高めるために,最先端の2つの大規模言語モデル(LLM),ChatGPT,Claudeを活用する新しい多モデル融合フレームワークを提案する。
224,316個の胸部Xpert corpusから無作為に234個の放射線科医を選抜し,画像のみのプロンプトを用いて単調性の評価を行った。
95%の出力類似度閾値を用いた類似性に基づくコンセンサスアプローチにより、精度は77.6%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a novel multi-model fusion framework leveraging two state-of-the-art large language models (LLMs), ChatGPT and Claude, to enhance the reliability of chest X-ray interpretation on the CheXpert dataset. From the full CheXpert corpus of 224,316 chest radiographs, we randomly selected 234 radiologist-annotated studies to evaluate unimodal performance using image-only prompts. In this setting, ChatGPT and Claude achieved diagnostic accuracies of 62.8% and 76.9%, respectively. A similarity-based consensus approach, using a 95% output similarity threshold, improved accuracy to 77.6%. To assess the impact of multimodal inputs, we then generated synthetic clinical notes following the MIMIC-CXR template and evaluated a separate subset of 50 randomly selected cases paired with both images and synthetic text. On this multimodal cohort, performance improved to 84% for ChatGPT and 76% for Claude, while consensus accuracy reached 91.3%. Across both experimental conditions, agreement-based fusion consistently outperformed individual models. These findings highlight the utility of integrating complementary modalities and using output-level consensus to improve the trustworthiness and clinical utility of AI-assisted radiological diagnosis, offering a practical path to reduce diagnostic errors with minimal computational overhead.
- Abstract(参考訳): 本研究では,CheXpertデータセット上での胸部X線解釈の信頼性を高めるために,2つの最先端の大規模言語モデル(LLM),ChatGPT,Claudeを活用する新しいマルチモデル融合フレームワークを提案する。
224,316個の胸部Xpert corpusから無作為に234個の放射線科医を選抜し,画像のみのプロンプトを用いて単調性の評価を行った。
この設定では、ChatGPTとClaudeはそれぞれ62.8%と76.9%の診断精度を達成した。
95%の出力類似度閾値を用いた類似性に基づくコンセンサスアプローチにより、精度は77.6%向上した。
次に,MIMIC-CXRテンプレートに従って合成臨床ノートを作成し,画像と合成テキストを組み合わせてランダムに選択された50の症例を分離して評価した。
このマルチモーダルコホートでは、ChatGPTが84%、Claudeが76%、コンセンサス精度が91.3%に向上した。
どちらの実験条件においても、合意に基づく融合は個々のモデルよりも一貫して優れていた。
これらの知見は、相補的モダリティの統合と出力レベルのコンセンサスの利用により、AI支援放射線診断の信頼性と臨床的有用性を向上し、最小の計算オーバーヘッドで診断エラーを減らす実用的な方法を提供する。
関連論文リスト
- A Fully Transformer Based Multimodal Framework for Explainable Cancer Image Segmentation Using Radiology Reports [2.629902609930227]
Med-CTX(Med-CTX)を導入した。
我々は,臨床放射線学報告を統合して,パフォーマンスと解釈可能性の両立を図った。
BUS-BRAデータセットでは、Diceスコアが99%、IoUが95%に達し、既存のベースラインであるU-Net、ViT、Swinを上回っている。
論文 参考訳(メタデータ) (2025-08-19T12:55:10Z) - Pixels to Prognosis: Harmonized Multi-Region CT-Radiomics and Foundation-Model Signatures Across Multicentre NSCLC Data [3.6651189622079223]
非小細胞肺癌(NSCLC)患者におけるハーモニゼーションと多領域機能統合は生存予測を改善する。
5施設876名のNSCLC患者のCTスキャンと臨床データを解析した。
論文 参考訳(メタデータ) (2025-05-23T13:41:52Z) - Enhancing Radiological Diagnosis: A Collaborative Approach Integrating AI and Human Expertise for Visual Miss Correction [11.007862955517638]
CoRaXは、胸部放射線学の診断精度を高めるために、視線データと放射線学レポートを統合している。
CoRaXは28%(332)の異常を欠いた271サンプルのシミュレーションエラーデータセットで試験された。
このシステムはこれらのエラーの21%(332件中71件)を修正し、7%(312件中22件)を未解決に残した。
論文 参考訳(メタデータ) (2024-06-28T06:51:38Z) - Enhancing Diagnostic Reliability of Foundation Model with Uncertainty Estimation in OCT Images [41.002573031087856]
光コヒーレンストモグラフィー(OCT)における11個の網膜状態を検出するために,不確実性推定(FMUE)を用いた基礎モデルを開発した。
FMUEは2つの最先端アルゴリズムであるRETFoundとUIOSよりも96.76%高いF1スコアを獲得し、しきい値戦略を98.44%に改善した。
我々のモデルは、F1スコアが高い2人の眼科医(95.17%対61.93% &71.72%)より優れている。
論文 参考訳(メタデータ) (2024-06-18T03:04:52Z) - Analysis of the BraTS 2023 Intracranial Meningioma Segmentation Challenge [44.76736949127792]
我々はBraTS 2023の頭蓋内髄膜腫チャレンジの設計と結果について述べる。
BraTS髄膜腫チャレンジ(BraTS Meningioma Challenge)は、髄膜腫に焦点を当てた以前のBraTSグリオーマチャレンジとは異なる。
上層部は腫瘍,腫瘍コア,腫瘍全体の拡張のために0.976,0.976,0.964の病変中央値類似係数(DSC)を有していた。
論文 参考訳(メタデータ) (2024-05-16T03:23:57Z) - HGT: A Hierarchical GCN-Based Transformer for Multimodal Periprosthetic
Joint Infection Diagnosis Using CT Images and Text [0.0]
補綴関節感染症(PJI)は重篤な合併症である。
現在,CT画像とPJIの数値テキストデータを組み合わせた統一診断基準が確立されていない。
本研究では,ディープラーニングとマルチモーダル技術に基づく診断手法であるHGTを紹介する。
論文 参考訳(メタデータ) (2023-05-29T11:25:57Z) - Diagnose Like a Radiologist: Hybrid Neuro-Probabilistic Reasoning for
Attribute-Based Medical Image Diagnosis [42.624671531003166]
本稿では,属性に基づく医用画像診断のためのハイブリッド型ニューロ確率推論アルゴリズムを提案する。
我々は,ハイブリッド推論アルゴリズムを2つの困難な画像診断タスクに適用することに成功している。
論文 参考訳(メタデータ) (2022-08-19T12:06:46Z) - Advancing COVID-19 Diagnosis with Privacy-Preserving Collaboration in
Artificial Intelligence [79.038671794961]
我々はUCADI(Unified CT-COVID AI Diagnostic Initiative)を立ち上げ、各ホスト機関でAIモデルを分散的にトレーニングし、独立して実行することができる。
本研究は,中国とイギリスに所在する23の病院で採取した3,336例の胸部CT9,573例について検討した。
論文 参考訳(メタデータ) (2021-11-18T00:43:41Z) - A multicenter study on radiomic features from T$_2$-weighted images of a
customized MR pelvic phantom setting the basis for robust radiomic models in
clinics [47.187609203210705]
骨盤ファントムの2Dおよび3D T$$-weightedイメージを3つのスキャナーで取得した。
放射線学的特徴の再現性と再配置を評価した。
論文 参考訳(メタデータ) (2020-05-14T09:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。