論文の概要: Eye-gaze Guided Multi-modal Alignment Framework for Radiology
- arxiv url: http://arxiv.org/abs/2403.12416v2
- Date: Fri, 12 Apr 2024 03:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 17:13:45.622693
- Title: Eye-gaze Guided Multi-modal Alignment Framework for Radiology
- Title(参考訳): アイ・ゲイズガイドによる放射線学用マルチモーダルアライメントフレームワーク
- Authors: Chong Ma, Hanqi Jiang, Wenting Chen, Zihao Wu, Xiaowei Yu, Fang Zeng, Lei Guo, Dajiang Zhu, Tuo Zhang, Dinggang Shen, Tianming Liu, Xiang Li,
- Abstract要約: 放射線医が診断評価中に同期的に収集したアイ・ゲイズデータは、胸部X線と診断用テキストを自然に結びつける。
モデルは、ゼロショット分類および検索タスクにおいて、他の最先端手法よりも優れた、堅牢な性能を示す。
- 参考スコア(独自算出の注目度): 60.061011664042134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-modal frameworks, the alignment of cross-modal features presents a significant challenge. The predominant approach in multi-modal pre-training emphasizes either global or local alignment between modalities, utilizing extensive datasets. This bottom-up driven method often suffers from a lack of interpretability, a critical concern in radiology. Previous studies have integrated high-level labels in medical images or text, but these still rely on manual annotation, a costly and labor-intensive process. Our work introduces a novel approach by using eye-gaze data, collected synchronously by radiologists during diagnostic evaluations. This data, indicating radiologists' focus areas, naturally links chest X-rays to diagnostic texts. We propose the Eye-gaze Guided Multi-modal Alignment (EGMA) framework to harness eye-gaze data for better alignment of image and text features, aiming to reduce reliance on manual annotations and thus cut training costs. Our model demonstrates robust performance, outperforming other state-of-the-art methods in zero-shot classification and retrieval tasks. The incorporation of easily-obtained eye-gaze data during routine radiological diagnoses signifies a step towards minimizing manual annotation dependency. Additionally, we explore the impact of varying amounts of eye-gaze data on model performance, highlighting the feasibility and utility of integrating this auxiliary data into multi-modal pre-training.
- Abstract(参考訳): マルチモーダルフレームワークでは、クロスモーダル機能のアライメントが大きな課題となる。
マルチモーダル事前学習における主要なアプローチは、広範囲なデータセットを利用して、モダリティ間のグローバルまたはローカルなアライメントを強調している。
このボトムアップ駆動法は、しばしばラジオロジーにおいて重要な関心事である解釈可能性の欠如に悩まされる。
これまでの研究では、医療画像やテキストにハイレベルなラベルが組み込まれていたが、それでも手作業によるアノテーションに依存している。
本研究は,放射線医が診断評価中に同期的に収集した眼球運動データを用いた新しいアプローチを提案する。
このデータは、放射線医の焦点領域を示すもので、胸部X線と診断用テキストを自然に関連付けている。
画像とテキストの特徴の整合性を改善するためにアイ・ゲイズ・ガイドド・マルチモーダル・アライメント(EGMA)フレームワークを提案し,手動アノテーションへの依存を減らし,トレーニングコストを削減することを目的とした。
我々のモデルは、ゼロショット分類および検索タスクにおいて、他の最先端手法よりも優れたロバストな性能を示す。
定期的な放射線診断における目視データの導入は、手動のアノテーション依存を最小化するための一歩である。
さらに、様々な眼球運動データがモデル性能に与える影響について検討し、これらの補助データをマルチモーダル事前学習に組み込む可能性と有用性を強調した。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - GEM: Context-Aware Gaze EstiMation with Visual Search Behavior Matching for Chest Radiograph [32.1234295417225]
本稿では,放射線科医が収集した視線データを用いて視覚的な探索行動パターンをシミュレートする,文脈対応型Gaze EstiMation (GEM) ネットワークを提案する。
コンテキスト認識モジュール、視覚行動グラフ構築、視覚行動マッチングで構成される。
4つの公開データセットの実験は、既存の方法よりもGEMの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-08-10T09:46:25Z) - HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided
Diagnosis [1.9450973046619378]
マルチモーダル医療データの整合と融合のためのトランスフォーマーベースのフレームワークであるAlifuseを提案する。
我々はAlifuseを用いてアルツハイマー病を分類し、5つのパブリックデータセット上で最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2024-01-02T07:28:21Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - KiUT: Knowledge-injected U-Transformer for Radiology Report Generation [10.139767157037829]
X線画像から臨床的正確で一貫性のある段落を自動的に生成することを目的とする。
知識注入型U-Transformer (KiUT) を提案する。
論文 参考訳(メタデータ) (2023-06-20T07:27:28Z) - Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。
本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文 参考訳(メタデータ) (2022-04-28T02:32:53Z) - AlignTransformer: Hierarchical Alignment of Visual Regions and Disease
Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。
パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文 参考訳(メタデータ) (2022-03-18T13:43:53Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。