論文の概要: Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy
- arxiv url: http://arxiv.org/abs/2510.09256v1
- Date: Fri, 10 Oct 2025 10:53:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.716361
- Title: Hallucination Filtering in Radiology Vision-Language Models Using Discrete Semantic Entropy
- Title(参考訳): 離散意味エントロピーを用いた放射線ビジョン言語モデルにおける幻覚フィルタ
- Authors: Patrick Wienholt, Sophie Caselitz, Robert Siepmann, Philipp Bruners, Keno Bressem, Christiane Kuhl, Jakob Nikolas Kather, Sven Nebelung, Daniel Truhn,
- Abstract要約: 個別意味エントロピー(DSE)を用いて幻覚を発生させる可能性のある質問を拒絶することで、X線画像に基づく視覚質問応答(VQA)におけるブラックボックス視覚言語モデル(VLM)の精度を向上させることができる。
この振り返り調査は、2つの公開されていないデータセットを使用してDSEを評価した。
- 参考スコア(独自算出の注目度): 2.2820819635675478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To determine whether using discrete semantic entropy (DSE) to reject questions likely to generate hallucinations can improve the accuracy of black-box vision-language models (VLMs) in radiologic image based visual question answering (VQA). This retrospective study evaluated DSE using two publicly available, de-identified datasets: (i) the VQA-Med 2019 benchmark (500 images with clinical questions and short-text answers) and (ii) a diagnostic radiology dataset (206 cases: 60 computed tomography scans, 60 magnetic resonance images, 60 radiographs, 26 angiograms) with corresponding ground-truth diagnoses. GPT-4o and GPT-4.1 answered each question 15 times using a temperature of 1.0. Baseline accuracy was determined using low-temperature answers (temperature 0.1). Meaning-equivalent responses were grouped using bidirectional entailment checks, and DSE was computed from the relative frequencies of the resulting semantic clusters. Accuracy was recalculated after excluding questions with DSE > 0.6 or > 0.3. p-values and 95% confidence intervals were obtained using bootstrap resampling and a Bonferroni-corrected threshold of p < .004 for statistical significance. Across 706 image-question pairs, baseline accuracy was 51.7% for GPT-4o and 54.8% for GPT-4.1. After filtering out high-entropy questions (DSE > 0.3), accuracy on the remaining questions was 76.3% (retained questions: 334/706) for GPT-4o and 63.8% (retained questions: 499/706) for GPT-4.1 (both p < .001). Accuracy gains were observed across both datasets and largely remained statistically significant after Bonferroni correction. DSE enables reliable hallucination detection in black-box VLMs by quantifying semantic inconsistency. This method significantly improves diagnostic answer accuracy and offers a filtering strategy for clinical VLM applications.
- Abstract(参考訳): 放射線画像に基づく視覚質問応答(VQA)において、個別意味エントロピー(DSE)を用いて幻覚を発生させる可能性のある質問を拒絶するか否かを判定する。
この振り返り調査は、2つの公開されていないデータセットを用いてDSEを評価した。
(i)VQA-Med 2019ベンチマーク(500画像、臨床質問、短文回答)および
(i)診断用放射線診断データセット(60例のCTスキャン,60例の磁気共鳴画像,60例のX線写真,26例の血管造影画像)と,それに対応する地上検診を行った。
GPT-4o と GPT-4.1 は、温度 1.0 で各質問に15回答えた。
低温応答(温度0.1。
意味等価応答は双方向のエンテーメントチェックを用いてグループ化され、DSEは結果のセマンティッククラスタの相対周波数から計算された。
DSE > 0.6 または > 0.3 の質問を除いた後に、精度が再計算された。
p値と95%信頼区間はブートストラップ再サンプリングとボフェロニ補正しきい値p < .004を用いて得られた。
706枚の画像検索ペアで、ベースライン精度はGPT-4oが51.7%、GPT-4.1が54.8%であった。
高エントロピー質問(DSE > 0.3)をフィルタリングした後、残りの質問の精度は76.3%(保持質問:334/706)、GPT-4.1(どちらもp < .001)の63.8%(保持質問:499/706)であった。
両者のデータセット間で精度の上昇が観測され、ボンフェロニ補正以降は統計的に有意な傾向がみられた。
DSEは、意味的不整合を定量化することにより、ブラックボックスVLMにおける確実な幻覚検出を可能にする。
本手法は, 診断応答精度を大幅に向上させ, 臨床用VLMアプリケーションに対するフィルタリング戦略を提供する。
関連論文リスト
- EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - Benchmarking GPT-5 in Radiation Oncology: Measurable Gains, but Persistent Need for Expert Oversight [1.0471566053937098]
GPT-5は大きな言語モデルであり、オンコロジーの使用に特化して販売されている。
TXITベンチマークでは、GPT-5の平均精度は92.8%で、GPT-4(78.8%)とGPT-3.5(62.1%)を上回った。
ビグネット評価では、GPT-5の治療勧告は、正当性(平均3.24/4、95%CI:3.11-3.38)と包括性(3.59/4、95%CI:3.49-3.69)を高く評価した。
幻覚は稀であったが,GPT-5による推奨が臨床導入に先立って厳密な専門家の監視を必要としていることを示す実体的誤りの存在
論文 参考訳(メタデータ) (2025-08-29T16:55:25Z) - Benchmarking GPT-5 for Zero-Shot Multimodal Medical Reasoning in Radiology and Radiation Oncology [4.156123728258067]
GPT-5 と GPT-5-mini, GPT-5-nano を 3 つのタスクでゼロショット評価した。
全データセットにおいて、GPT-5はGPT-4oよりも高い精度を達成し、解剖学的に挑戦する領域では+200%まで上昇した。
GPT-5は、画像基底推論とドメイン固有の数値問題解決の両方において、GPT-4oよりも一貫した、しばしば顕著なパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2025-08-15T16:14:51Z) - Diagnostic Accuracy of Open-Source Vision-Language Models on Diverse Medical Imaging Tasks [1.6567957832859204]
このデータセットは, 胸部X線撮影, 大腸病理検査, 内視鏡検査, 新生児黄体診, 網膜内視鏡検査を含む7,461例の22,349枚の画像を含む。
Qwen2.5 は胸部X線写真 (90.4%) と内視鏡画像 (84.2%) で最高精度を達成し、他のモデル (p.001) よりも大幅に優れていた。
Qwen2.5とGemma3は18.6%(比較可能、p=.99)で、他の試験されたモデル(p.001)よりもはるかに優れている。
論文 参考訳(メタデータ) (2025-08-01T18:28:37Z) - Evaluating Large Language Models for Multimodal Simulated Ophthalmic Decision-Making in Diabetic Retinopathy and Glaucoma Screening [37.69303106863453]
大規模言語モデル(LLM)は、自然言語のプロンプトに基づいて臨床推論をシミュレートすることができるが、眼科におけるそれらの有用性はほとんど解明されていない。
本研究は,GPT-4による網膜底写真の構造的記述の解釈能力について検討した。
300点の注釈付き眼底画像を用いた振り返り診断検査を行った。
論文 参考訳(メタデータ) (2025-07-02T01:35:59Z) - Machine Learning-Based Detection of Parkinson's Disease From
Resting-State EEG: A Multi-Center Study [0.125828876338076]
安静時脳波(rs-EEG)はパーキンソン病(PD)の診断に有効である。
本研究では,異なるセンターで得られた4つのデータセットから,84 PDのRS-EEG記録と85 PDの非PD被験者をプールした。
本稿では,プリプロセッシング,臨床的に検証された周波数帯域からのPSD特徴抽出,特徴選択によるエンドツーエンドパイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-02T16:19:24Z) - Exploiting prompt learning with pre-trained language models for
Alzheimer's Disease detection [70.86672569101536]
アルツハイマー病(AD)の早期診断は予防ケアの促進とさらなる進行の遅らせに不可欠である。
本稿では,AD分類誤差をトレーニング対象関数として一貫して用いたPLMの高速微調整法について検討する。
論文 参考訳(メタデータ) (2022-10-29T09:18:41Z) - Automated SSIM Regression for Detection and Quantification of Motion
Artefacts in Brain MR Images [54.739076152240024]
磁気共鳴脳画像における運動アーチファクトは重要な問題である。
MR画像の画質評価は,臨床診断に先立って基本的である。
構造類似度指数(SSIM)回帰に基づく自動画像品質評価法が提案されている。
論文 参考訳(メタデータ) (2022-06-14T10:16:54Z) - Osteoporosis Prescreening using Panoramic Radiographs through a Deep
Convolutional Neural Network with Attention Mechanism [65.70943212672023]
注意モジュールを持つディープ畳み込みニューラルネットワーク(CNN)はパノラマX線写真上で骨粗しょう症を検出することができる。
49歳から60歳までの70種類のパノラマX線写真(PR)のデータセットを用いて検討した。
論文 参考訳(メタデータ) (2021-10-19T00:03:57Z) - The Report on China-Spain Joint Clinical Testing for Rapid COVID-19 Risk
Screening by Eye-region Manifestations [59.48245489413308]
携帯電話カメラで中国とスペインで撮影された視線領域の画像を用いて、新型コロナウイルスの早期スクリーニングモデルを開発し、テストした。
AUC, 感度, 特異性, 精度, F1。
論文 参考訳(メタデータ) (2021-09-18T02:28:01Z) - Quantification of pulmonary involvement in COVID-19 pneumonia by means
of a cascade oftwo U-nets: training and assessment on multipledatasets using
different annotation criteria [83.83783947027392]
本研究は、新型コロナウイルスの肺病変の同定、セグメント化、定量化のために人工知能(AI)を活用することを目的とする。
2つのU-netのカスケードをベースとした自動解析パイプラインLungQuantシステムを開発した。
LungQuantシステムにおけるCT-Severity Score(CT-SS)の精度も評価した。
論文 参考訳(メタデータ) (2021-05-06T10:21:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。