論文の概要: Enhancing Human-Computer Interaction in Chest X-ray Analysis using Vision and Language Model with Eye Gaze Patterns
- arxiv url: http://arxiv.org/abs/2404.02370v1
- Date: Wed, 3 Apr 2024 00:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 18:59:11.121258
- Title: Enhancing Human-Computer Interaction in Chest X-ray Analysis using Vision and Language Model with Eye Gaze Patterns
- Title(参考訳): 視線と視線パターンを持つ言語モデルを用いた胸部X線解析におけるヒューマン・コンピュータインタラクションの促進
- Authors: Yunsoo Kim, Jinge Wu, Yusuf Abdulle, Yue Gao, Honghan Wu,
- Abstract要約: VLM(Vision-Language Models)は、視線データとテキストプロンプトを併用することで、放射線技師の注意を喚起する。
眼球データから生成した熱マップを医療画像にオーバーレイし、放射線技師の集中した領域をハイライトする。
その結果,視線情報の挿入は胸部X線解析の精度を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 7.6599164274971026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Computer Assisted Diagnosis have shown promising performance in medical imaging tasks, particularly in chest X-ray analysis. However, the interaction between these models and radiologists has been primarily limited to input images. This work proposes a novel approach to enhance human-computer interaction in chest X-ray analysis using Vision-Language Models (VLMs) enhanced with radiologists' attention by incorporating eye gaze data alongside textual prompts. Our approach leverages heatmaps generated from eye gaze data, overlaying them onto medical images to highlight areas of intense radiologist's focus during chest X-ray evaluation. We evaluate this methodology in tasks such as visual question answering, chest X-ray report automation, error detection, and differential diagnosis. Our results demonstrate the inclusion of eye gaze information significantly enhances the accuracy of chest X-ray analysis. Also, the impact of eye gaze on fine-tuning was confirmed as it outperformed other medical VLMs in all tasks except visual question answering. This work marks the potential of leveraging both the VLM's capabilities and the radiologist's domain knowledge to improve the capabilities of AI models in medical imaging, paving a novel way for Computer Assisted Diagnosis with a human-centred AI.
- Abstract(参考訳): 近年のコンピュータ支援診断の進歩は、特に胸部X線分析において、医用画像のタスクにおいて有望な性能を示している。
しかし、これらのモデルと放射線学者の相互作用は主に入力画像に限られている。
本研究では,視覚言語モデル(VLM)を用いた胸部X線解析における人-コンピュータ間相互作用の促進手法を提案する。
本手法では, 眼球画像から得られた熱マップを医用画像上にオーバーレイし, 胸部X線検査における放射線技師の集中領域を明らかにする。
我々は,視覚的質問応答,胸部X線レポートの自動化,エラー検出,鑑別診断などのタスクにおいて,この手法を評価する。
以上の結果より,視線情報を含めることで胸部X線解析の精度が著しく向上することが示唆された。
また、視線が微調整に与える影響は、視覚的質問応答以外の全てのタスクにおいて、他の医療用VLMよりも優れていたことが確認された。
この研究は、医用画像におけるAIモデルの能力を改善するために、VLMの能力と放射線技師のドメイン知識の両方を活用する可能性を示す。
関連論文リスト
- D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions [8.50767187405446]
ドメイン固有の対話型無線支援ツールD-Raxを提案する。
我々は胸部X線(CXR)画像の会話解析を強化し,放射線学的報告を支援する。
オープン・エンド・会話とクローズド・会話の双方において,反応の統計的に有意な改善が認められた。
論文 参考訳(メタデータ) (2024-07-02T18:43:10Z) - Multimodal Learning and Cognitive Processes in Radiology: MedGaze for Chest X-ray Scanpath Prediction [10.388541520456714]
提案システムは,放射線学報告やCXR画像から視線シーケンスを予測することを目的としている。
本モデルでは, 医用スキャンパス予測において重要な固定座標と期間を予測し, コンピュータビジョンコミュニティにおける既存モデルよりも優れていた。
放射線学者の評価に基づいて、MedGazeは関連する領域に焦点をあてたヒトのような視線配列を生成することができる。
論文 参考訳(メタデータ) (2024-06-28T06:38:58Z) - Computer-Aided Diagnosis of Thoracic Diseases in Chest X-rays using hybrid CNN-Transformer Architecture [1.0878040851637998]
自動コンピュータ支援診断システムは、胸部X線を解釈し、実行可能な洞察を提供することで、放射線科医を増強することができる。
本研究では,DenseNet121 Convolutional Neural Network(CNN)を付加した新しいアーキテクチャを適用した。
胸部X線による胸部疾患の診断において, 自己注意でCNNを増強する可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-18T01:46:31Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - I-AI: A Controllable & Interpretable AI System for Decoding
Radiologists' Intense Focus for Accurate CXR Diagnoses [9.260958560874812]
解釈可能な人工知能(I-AI)は、新しく統一された制御可能な解釈可能なパイプラインである。
私たちのI-AIは、放射線科医がどこに見えるか、特定の領域にどのくらい焦点を合わせるか、どの発見を診断するか、という3つの重要な疑問に対処しています。
論文 参考訳(メタデータ) (2023-09-24T04:48:44Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Act Like a Radiologist: Radiology Report Generation across Anatomical Regions [50.13206214694885]
X-RGenは6つの解剖学的領域にわたる放射線学者によるレポート生成フレームワークである。
X-RGenでは、ヒトの放射線学者の行動を模倣し、これらを4つの主要な段階に分解する。
画像エンコーダの認識能力は,各領域にまたがる画像やレポートを分析して向上する。
論文 参考訳(メタデータ) (2023-05-26T07:12:35Z) - Computer Vision on X-ray Data in Industrial Production and Security
Applications: A survey [89.45221564651145]
本稿では,コンピュータビジョンと機械学習を用いた産業生産およびセキュリティアプリケーションにおけるX線分析に関する最近の研究をレビューする。
公開されているデータセット上でのアプリケーション、テクニック、評価メトリクス、データセット、それらのテクニックのパフォーマンス比較をカバーしている。
論文 参考訳(メタデータ) (2022-11-10T13:37:36Z) - Generative Residual Attention Network for Disease Detection [51.60842580044539]
本稿では, 条件付き生成逆学習を用いたX線疾患発生のための新しいアプローチを提案する。
我々は,患者の身元を保存しながら,対象領域に対応する放射線画像を生成する。
次に、ターゲット領域で生成されたX線画像を用いてトレーニングを増強し、検出性能を向上させる。
論文 参考訳(メタデータ) (2021-10-25T14:15:57Z) - Variational Knowledge Distillation for Disease Classification in Chest
X-Rays [102.04931207504173]
我々は,X線に基づく疾患分類のための新しい確率的推論フレームワークである反復的知識蒸留(VKD)を提案する。
提案手法の有効性を,X線画像とEHRを用いた3つの公開ベンチマークデータセットに示す。
論文 参考訳(メタデータ) (2021-03-19T14:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。