論文の概要: Trustworthy Medical Imaging with Large Language Models: A Study of Hallucinations Across Modalities
- arxiv url: http://arxiv.org/abs/2508.07031v1
- Date: Sat, 09 Aug 2025 16:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.665345
- Title: Trustworthy Medical Imaging with Large Language Models: A Study of Hallucinations Across Modalities
- Title(参考訳): 大規模言語モデルを用いた信頼できる医用画像:モダリティにおける幻覚の研究
- Authors: Anindya Bijoy Das, Shahnewaz Karim Sakib, Shibbir Ahmed,
- Abstract要約: 大規模言語モデル(LLM)は、医療画像のタスクにますます応用されている。
これらのモデルは、しばしば幻覚を生じさせ、自信はあるが、誤ったアウトプットが臨床上の決定を誤解させる可能性がある。
本研究では、画像からテキストへの幻覚、X線、CT、MRIスキャンからの報告、およびテキストから画像への幻覚、そしてモデルが臨床的なプロンプトから医療画像を生成する2つの方向について検討する。
- 参考スコア(独自算出の注目度): 3.1406146587437904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly applied to medical imaging tasks, including image interpretation and synthetic image generation. However, these models often produce hallucinations, which are confident but incorrect outputs that can mislead clinical decisions. This study examines hallucinations in two directions: image to text, where LLMs generate reports from X-ray, CT, or MRI scans, and text to image, where models create medical images from clinical prompts. We analyze errors such as factual inconsistencies and anatomical inaccuracies, evaluating outputs using expert informed criteria across imaging modalities. Our findings reveal common patterns of hallucination in both interpretive and generative tasks, with implications for clinical reliability. We also discuss factors contributing to these failures, including model architecture and training data. By systematically studying both image understanding and generation, this work provides insights into improving the safety and trustworthiness of LLM driven medical imaging systems.
- Abstract(参考訳): 大きな言語モデル(LLM)は、画像解釈や合成画像生成を含む医療画像タスクにますます応用されている。
しかし、これらのモデルはしばしば幻覚を生じさせ、それは自信はあるが誤ったアウトプットであり、臨床上の決定を誤解させる可能性がある。
本研究では、画像からテキストへの幻覚、X線、CT、MRIスキャンからの報告、およびテキストから画像への幻覚、そしてモデルが臨床的なプロンプトから医療画像を生成する2つの方向について検討する。
本研究では, 実ミスや解剖学的不正確さなどの誤りを分析し, 画像モダリティにまたがる有能なインフォメーション基準を用いて, アウトプットの評価を行う。
本研究は, 解釈作業と生成作業の両方において幻覚の共通パターンが明らかとなり, 臨床的信頼性が示唆された。
また、モデルアーキテクチャやトレーニングデータなど、これらの障害に寄与する要因についても論じる。
画像理解と生成の両方を体系的に研究することにより、この研究はLLM駆動型医療画像システムの安全性と信頼性を改善するための洞察を提供する。
関連論文リスト
- On the Risk of Misleading Reports: Diagnosing Textual Biases in Multimodal Clinical AI [4.866086225040713]
本稿では,モデルが二項分類タスクにおける各モータリティに依存することを定量化するための摂動に基づくアプローチを提案する。
画像やテキストを反対のラベルと交換することで、モダリティ固有のバイアスを露呈する。
論文 参考訳(メタデータ) (2025-07-31T21:35:52Z) - Distribution-Based Masked Medical Vision-Language Model Using Structured Reports [9.306835492101413]
医用画像テキスト事前訓練は,医療用画像と臨床関連テキストの整合を図り,様々な下流作業におけるモデル性能を向上させることを目的としている。
本研究は,医用画像解析における一般化能力を高める不確実性を考慮した医用画像テキスト事前学習モデルを提案する。
論文 参考訳(メタデータ) (2025-07-29T13:31:24Z) - Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。
本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文 参考訳(メタデータ) (2025-04-20T01:54:18Z) - Language-Guided Trajectory Traversal in Disentangled Stable Diffusion Latent Space for Factorized Medical Image Generation [0.8397730500554048]
医用画像データセットに微調整を施した事前学習型視覚言語基礎モデルの能力について, 潜時無拘束化を行うための第1報を提示する。
言語誘導の安定拡散は、本質的に画像生成のキー属性を分解することを学ぶことを実証する。
生成モデルの潜在空間軌跡を識別し,分離し,操作するための枠組みを考案し,医用画像合成の精密制御を容易にする。
論文 参考訳(メタデータ) (2025-03-30T23:15:52Z) - RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining [64.66825253356869]
本稿では,複数の粒度で画像の類似度を決定するために,高密度ラジオロジーレポートを利用した新しい手法を提案する。
我々は、胸部X線用MIMIC-IRとCTスキャン用CTRATE-IRの2つの総合的な医用画像検索データセットを構築した。
RadIR-CXR と Model-ChestCT という2つの検索システムを開発し,従来の画像画像検索と画像レポート検索に優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-06T17:43:03Z) - Bidirectional Brain Image Translation using Transfer Learning from Generic Pre-trained Models [0.0]
医療分野では、ラベル付き医療画像を取得することは労働集約的で費用がかかるため、データの不足に対処することが大きな課題である。
近年の研究では、この問題を克服するためにトランスファーラーニング(transfer learning)が提案されている。
本研究では,MR-CT画像翻訳の課題に対して,転送学習を適用した。
論文 参考訳(メタデータ) (2025-01-21T20:30:15Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。
本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。
結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文 参考訳(メタデータ) (2024-01-02T19:51:49Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。