論文の概要: GazeVaLM: A Multi-Observer Eye-Tracking Benchmark for Evaluating Clinical Realism in AI-Generated X-Rays
- arxiv url: http://arxiv.org/abs/2604.11653v1
- Date: Mon, 13 Apr 2026 16:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.666449
- Title: GazeVaLM: A Multi-Observer Eye-Tracking Benchmark for Evaluating Clinical Realism in AI-Generated X-Rays
- Title(参考訳): GazeVaLM:AI生成X線における臨床リアリズム評価のためのマルチオブザーバアイトラックベンチマーク
- Authors: David Wong, Zeynep Isik, Bin Wang, Marouane Tliba, Gorkem Durak, Elif Keles, Halil Ertugrul Aktas, Aladine Chetouani, Cagdas Topel, Nicolo Gennaro, Camila Lopes Vendrami, Tugce Agirlar Trabzonlu, Amir Ali Rahsepar, Laetitia Perronne, Matthew Antalek, Onural Ozturk, Gokcan Okur, Andrew C. Gordon, Ayis Pyrros, Frank H. Miller, Amir Borhani, Hatice Savas, Eric Hart, Elizabeth Krupinski, Ulas Bagci,
- Abstract要約: 本稿では,胸部X線画像の信頼性評価における臨床的知覚を研究するための,パブリックアイトラッキングデータセットであるGazeVaLMを紹介する。
このデータセットは、30のリアルと30の合成胸部X線を解釈する16人の専門放射線学者による960の視線記録で構成されている。
画像とサーバのペアごとに、生の視線サンプル、固定マップ、スキャンパス、塩分密度マップ、構造化診断ラベル、認証判定を提供する。
- 参考スコア(独自算出の注目度): 11.033599265511851
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GazeVaLM, a public eye-tracking dataset for studying clinical perception during chest radiograph authenticity assessment. The dataset comprises 960 gaze recordings from 16 expert radiologists interpreting 30 real and 30 synthetic chest X-rays (generated by diffusion based generative AI) under two conditions: diagnostic assessment and real-fake classification (Visual Turing test). For each image-observer pair, we provide raw gaze samples, fixation maps, scanpaths, saliency density maps, structured diagnostic labels, and authenticity judgments. We extend the protocol to 6 state-of-the-art multimodal LLMs, releasing their predicted diagnoses, authenticity labels, and confidence scores under matched conditions - enabling direct human-AI comparison at both decision and uncertainty levels. We further provide analyses of gaze agreement, inter-observer consistency, and benchmarking of radiologists versus LLMs in diagnostic accuracy and authenticity detection. GazeVaLM supports research in gaze modeling, clinical decision-making, human-AI comparison, generative image realism assessment, and uncertainty quantification. By jointly releasing visual attention data, clinical labels, and model predictions, we aim to facilitate reproducible research on how experts and AI systems perceive, interpret, and evaluate medical images. The dataset is available at https://huggingface.co/datasets/davidcwong/GazeVaLM.
- Abstract(参考訳): 本稿では,胸部X線画像の信頼性評価における臨床的知覚を研究するための,パブリックアイトラッキングデータセットであるGazeVaLMを紹介する。
このデータセットは、30のリアルと30の合成胸部X線(拡散ベースの生成AIによって生成される)を、診断評価とリアルフェイク分類(Visual Turing test)の2つの条件下で解釈する16の専門放射線学者による960の視線記録からなる。
画像とサーバのペアごとに、生の視線サンプル、固定マップ、スキャンパス、塩分密度マップ、構造化診断ラベル、認証判定を提供する。
このプロトコルを6つの最先端マルチモーダルLCMに拡張し、予測診断、認証ラベル、信頼性スコアを一致条件下でリリースし、意思決定と不確実性の両方で直接AI比較を可能にする。
さらに、診断精度および認証検出において、視線一致、サーバ間整合性、および放射線技師対LSMのベンチマーク分析について述べる。
GazeVaLMは、視線モデリング、臨床的意思決定、人間とAIの比較、生成的イメージリアリズムアセスメント、不確実性定量化の研究を支援する。
視覚的注意データ、臨床ラベル、モデル予測を共同でリリースすることにより、専門家とAIシステムが医療画像をどのように認識し、解釈し、評価するかの再現可能な研究を促進することを目的としている。
データセットはhttps://huggingface.co/datasets/davidcwong/GazeVaLMで公開されている。
関連論文リスト
- Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - Synthetic Vasculature and Pathology Enhance Vision-Language Model Reasoning [39.96133625333846]
本稿では,SVR(Synthetic Vasculature Reasoning)について紹介する。
これに基づいて10万対のOCTAイメージ推論データセットであるOCTA-100K-SVRをキュレートする。
実験により,データセット上で訓練された汎用VLMは,実際のOCTA画像に対して89.67%のゼロショットバランスの分類精度が得られることがわかった。
論文 参考訳(メタデータ) (2025-12-11T19:19:39Z) - XBench: A Comprehensive Benchmark for Visual-Language Explanations in Chest Radiography [6.447908430647854]
胸部X線におけるクロスモーダル解釈性を評価するための最初の体系的ベンチマークを示す。
我々は,クロスアテンションと類似性に基づくローカライズマップを用いた視覚的説明を生成する。
複数の病理組織を横断する放射線診断領域とのアライメントを定量的に評価した。
論文 参考訳(メタデータ) (2025-10-22T13:52:19Z) - Comparative Evaluation of Radiomics and Deep Learning Models for Disease Detection in Chest Radiography [0.0]
胸部X線撮影における疾患検出のための放射線治療と深層学習によるアプローチについて検討した。
深層学習モデルは画像データから直接学習し、放射能ベースのモデルは手作りの特徴を抽出する。
これらの知見は、診断AIにおけるモデル選択のための統計的に検証された、データ駆動の推奨を提供する。
論文 参考訳(メタデータ) (2025-04-16T16:54:37Z) - VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。
本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。
結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文 参考訳(メタデータ) (2024-01-02T19:51:49Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Beyond Images: An Integrative Multi-modal Approach to Chest X-Ray Report
Generation [47.250147322130545]
画像からテキストまでの放射線学レポート生成は,医療画像の発見を記述した放射線学レポートを自動生成することを目的としている。
既存の方法の多くは画像データのみに焦点をあてており、他の患者情報は放射線科医に公開されていない。
胸部X線レポートを生成するための多モードディープニューラルネットワークフレームワークを,非構造的臨床ノートとともにバイタルサインや症状などの構造化された患者データを統合することで提案する。
論文 参考訳(メタデータ) (2023-11-18T14:37:53Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z) - Evaluating the Clinical Realism of Synthetic Chest X-Rays Generated
Using Progressively Growing GANs [0.0]
胸部X線は多くの患者のワークアップに欠かせない道具である。
新たな診断ツールを開発するためには,ラベル付きデータの量を増やす必要がある。
これまでの研究は、イメージを合成してトレーニングデータを増強するクラス固有のGANを作成することで、これらの問題に対処しようとしてきた。
論文 参考訳(メタデータ) (2020-10-07T11:47:22Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。