論文の概要: RadEyeVideo: Enhancing general-domain Large Vision Language Model for chest X-ray analysis with video representations of eye gaze
- arxiv url: http://arxiv.org/abs/2507.09097v1
- Date: Sat, 12 Jul 2025 00:45:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.369054
- Title: RadEyeVideo: Enhancing general-domain Large Vision Language Model for chest X-ray analysis with video representations of eye gaze
- Title(参考訳): RadEyeVideo:眼の映像表現を用いた胸部X線解析のための一般領域大視野言語モデルの構築
- Authors: Yunsoo Kim, Jinge Wu, Honghan Wu,
- Abstract要約: RadEyeVideoは、放射線学者の眼球固定データをビデオシーケンスとして統合し、視線の時間的・空間的ダイナミクスをキャプチャする。
目を見つめるビデオでトリガーすると、レポート生成タスクのモデル性能が24.6%向上する。
- 参考スコア(独自算出の注目度): 2.4302611783073145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated promising performance in chest X-ray (CXR) analysis. To enhance human-computer interaction, several studies have incorporated radiologists' eye gaze, typically through heatmaps or textual prompts. However, these methods often overlook the sequential order of eye movements, which could provide valuable insights by highlighting both the areas of interest and the order in which they are examined. In this work, we propose a novel approach called RadEyeVideo that integrates radiologists' eye-fixation data as a video sequence, capturing both the temporal and spatial dynamics of their gaze. We evaluate this method in CXR report generation and disease diagnosis using three general-domain, open-source LVLMs with video input capabilities. When prompted with eye-gaze videos, model performance improves by up to 24.6% in the report generation task and on average 15.2% for both tasks using scaled evaluation metrics. Notably, RadEyeVideo enhanced an open-domain LVLM model, LLaVA-OneVision, to surpass task-specific medical LVLMs such as MAIRA-2 and CheXagent, trained on large Chest X-ray data. This work highlights that domain expert's knowledge (eye-gaze information in this case), when effectively integrated with LVLMs, can significantly enhance general-domain models' capabilities in clinical tasks. RadEyeVideo is a step toward a scalable human-centered approach of utilizing LVLMs in medical image analytics.
- Abstract(参考訳): 胸部X線(CXR)解析においてLVLM(Large Vision-Language Models)が有望な性能を示した。
人とコンピュータの相互作用を強化するために、いくつかの研究は放射線学者の視線を熱マップやテキストのプロンプトを通じて取り入れた。
しかし、これらの手法は眼球運動の連続的な順序を見落とし、興味のある領域と調査対象の順序の両方を強調することで、貴重な洞察を与えることができる。
本研究では,RadEyeVideoという新しい手法を提案する。この手法は,放射線技師の眼球固定データをビデオシーケンスとして統合し,視線の時間的・空間的ダイナミクスを捉える。
ビデオ入力機能を備えた3つの汎用LVLMを用いて,CXRレポートの生成と疾患診断における本手法の評価を行った。
目を見つめるビデオでトリガーすると、レポート生成タスクでは24.6%まで改善され、スケールした評価メトリクスを使用して、両方のタスクで平均15.2%となる。
特にRadEyeVideoは、オープンドメインのLVLMモデルであるLLaVA-OneVisionを拡張して、大規模なChest X線データに基づいてトレーニングされたMAIRA-2やCheXagentのようなタスク固有の医療LVLMを超えた。
この研究は、LVLMと効果的に統合されたドメインエキスパートの知識(この場合の目視情報)が、臨床業務における汎用ドメインモデルの能力を著しく向上させることを強調している。
RadEyeVideoは、医療画像分析にLVLMを利用する、スケーラブルな人間中心のアプローチへの一歩だ。
関連論文リスト
- ChestGPT: Integrating Large Language Models and Vision Transformers for Disease Detection and Localization in Chest X-Rays [1.9827390755712084]
視覚変換器(ViT)は、視覚データをLLMが効率的に処理できるフォーマットに変換するのに有効であることが証明されている。
本稿では,EVA ViTとLlama 2 LLMを統合するフレームワークであるChestGPTについて紹介する。
提案手法は, F1スコア0.76のVinDr-CXRデータセットを用いて, 強いグローバルな疾患分類性能を達成した。
論文 参考訳(メタデータ) (2025-07-04T17:58:52Z) - SurgVidLM: Towards Multi-grained Surgical Video Understanding with Large Language Model [55.13206879750197]
SurgVidLMは、完全かつきめ細かい外科的ビデオ理解に対処するために設計された最初のビデオ言語モデルである。
手術ビデオの多段階的理解を行うための2段階フレームワークであるStageFocus機構について紹介する。
実験結果から,SurgVidLMは全精細ビデオ理解タスクおよび精細ビデオ理解タスクにおいて,最先端のVid-LLMよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-06-22T02:16:18Z) - X-GRM: Large Gaussian Reconstruction Model for Sparse-view X-rays to Computed Tomography [89.84588038174721]
Computed Tomographyは臨床において必須のツールであり、内部解剖学的構造を非侵襲的に可視化する。
既存のCT再構成作業は、小さなキャパシティモデルアーキテクチャと非フレキシブルボリューム表現に限られている。
スパースビュー2次元X線プロジェクションから3次元CTボリュームを再構成する大規模なフィードフォワードモデルであるX-GRMを提案する。
論文 参考訳(メタデータ) (2025-05-21T08:14:10Z) - Gla-AI4BioMed at RRG24: Visual Instruction-tuned Adaptation for Radiology Report Generation [21.772106685777995]
胸部X線から放射線学レポートを生成するために,放射線学に焦点を当てた視覚言語モデルを提案する。
我々のモデルは、画像エンコーダとVicuna-7Bアーキテクチャに基づく微調整LDMを組み合わせることで、顕著な精度で放射線学レポートの異なるセクションを生成することができる。
論文 参考訳(メタデータ) (2024-12-06T11:14:03Z) - Enhancing Human-Computer Interaction in Chest X-ray Analysis using Vision and Language Model with Eye Gaze Patterns [7.6599164274971026]
VLM(Vision-Language Models)は、視線データとテキストプロンプトを併用することで、放射線技師の注意を喚起する。
眼球データから生成した熱マップを医療画像にオーバーレイし、放射線技師の集中した領域をハイライトする。
その結果,視線情報の挿入は胸部X線解析の精度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-03T00:09:05Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - Endora: Video Generation Models as Endoscopy Simulators [53.72175969751398]
本稿では,臨床内視鏡シーンをシミュレートする医用ビデオを作成するための革新的な手法であるモデルを紹介する。
また、ビデオ生成モデルを用いた内視鏡シミュレーションのための最初の公開ベンチマークを開拓した。
Endoraは、臨床内視鏡研究のための生成AIの展開において、注目すべきブレークスルーとなる。
論文 参考訳(メタデータ) (2024-03-17T00:51:59Z) - Intensive Vision-guided Network for Radiology Report Generation [22.030289124516326]
医用画像エンコーダにおける多視点視覚知覚をシミュレートし統合するためのGIAモジュールを提案する。
また,複数モーダル信号を用いて正確な一致したレポートを生成する方法,すなわち,予測済みの単語を領域認識型視覚コンテンツと統合して次の単語予測を行う方法について検討する。
論文 参考訳(メタデータ) (2024-02-06T06:46:46Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language Models [72.8965643836841]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。