Fugu-MT 論文翻訳(概要): Eye-gaze Guided Multi-modal Alignment Framework for Radiology

論文の概要: Eye-gaze Guided Multi-modal Alignment Framework for Radiology

arxiv url: http://arxiv.org/abs/2403.12416v1
Date: Tue, 19 Mar 2024 03:59:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 15:22:07.630060
Title: Eye-gaze Guided Multi-modal Alignment Framework for Radiology
Title（参考訳）: アイ・ゲイズガイドによる放射線学用マルチモーダルアライメントフレームワーク
Authors: Chong Ma, Hanqi Jiang, Wenting Chen, Zihao Wu, Xiaowei Yu, Fang Zeng, Lei Guo, Dajiang Zhu, Tuo Zhang, Dinggang Shen, Tianming Liu, Xiang Li,
Abstract要約: 放射線医が診断評価中に同期的に収集したアイ・ゲイズデータは、胸部X線と診断用テキストを自然に結びつける。モデルは、ゼロショット分類および検索タスクにおいて、他の最先端手法よりも優れた、堅牢な性能を示す。
参考スコア（独自算出の注目度）: 60.061011664042134
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In multi-modal frameworks, the alignment of cross-modal features presents a significant challenge. The predominant approach in multi-modal pre-training emphasizes either global or local alignment between modalities, utilizing extensive datasets. This bottom-up driven method often suffers from a lack of interpretability, a critical concern in radiology. Previous studies have integrated high-level labels in medical images or text, but these still rely on manual annotation, a costly and labor-intensive process. Our work introduces a novel approach by using eye-gaze data, collected synchronously by radiologists during diagnostic evaluations. This data, indicating radiologists' focus areas, naturally links chest X-rays to diagnostic texts. We propose the Eye-gaze Guided Multi-modal Alignment (EGMA) framework to harness eye-gaze data for better alignment of image and text features, aiming to reduce reliance on manual annotations and thus cut training costs. Our model demonstrates robust performance, outperforming other state-of-the-art methods in zero-shot classification and retrieval tasks. The incorporation of easily-obtained eye-gaze data during routine radiological diagnoses signifies a step towards minimizing manual annotation dependency. Additionally, we explore the impact of varying amounts of eye-gaze data on model performance, highlighting the feasibility and utility of integrating this auxiliary data into multi-modal pre-training.
Abstract（参考訳）: マルチモーダルフレームワークでは、クロスモーダル機能のアライメントが大きな課題となる。マルチモーダル事前学習における主要なアプローチは、広範囲なデータセットを利用して、モダリティ間のグローバルまたはローカルなアライメントを強調している。このボトムアップ駆動法は、しばしばラジオロジーにおいて重要な関心事である解釈可能性の欠如に悩まされる。これまでの研究では、医療画像やテキストにハイレベルなラベルが組み込まれていたが、それでも手作業によるアノテーションに依存している。本研究は,放射線医が診断評価中に同期的に収集した眼球運動データを用いた新しいアプローチを提案する。このデータは、放射線医の焦点領域を示すもので、胸部X線と診断用テキストを自然に関連付けている。画像とテキストの特徴の整合性を改善するためにアイ・ゲイズ・ガイドド・マルチモーダル・アライメント(EGMA)フレームワークを提案し,手動アノテーションへの依存を減らし,トレーニングコストを削減することを目的とした。我々のモデルは、ゼロショット分類および検索タスクにおいて、他の最先端手法よりも優れたロバストな性能を示す。定期的な放射線診断における目視データの導入は、手動のアノテーション依存を最小化するための一歩である。さらに、様々な眼球運動データがモデル性能に与える影響について検討し、これらの補助データをマルチモーダル事前学習に組み込む可能性と有用性を強調した。

関連論文リスト

On the Risk of Misleading Reports: Diagnosing Textual Biases in Multimodal Clinical AI [4.866086225040713]
本稿では,モデルが二項分類タスクにおける各モータリティに依存することを定量化するための摂動に基づくアプローチを提案する。画像やテキストを反対のラベルと交換することで、モダリティ固有のバイアスを露呈する。
論文参考訳（メタデータ） (2025-07-31T21:35:52Z)
ProMedTS: A Self-Supervised, Prompt-Guided Multimodal Approach for Integrating Medical Text and Time Series [27.70300880284899]
大規模言語モデル (LLM) は、視覚の細かいタスクにおいて顕著な性能を示してきたが、医療分野におけるそれらの応用はいまだに探索されていない。 ProMedTSは、データ型を統一するために、プロンプト誘導学習を利用する、新しい自己教師型マルチモーダルフレームワークである。実世界のデータセットを用いた診断タスクにおけるProMedTSの評価を行い,本手法が常に最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2025-02-19T07:56:48Z)
On the Compositional Generalization of Multimodal LLMs for Medical Imaging [14.419190976672065]
マルチモーダル大言語モデル(MLLM)は、医療分野において大きな可能性を秘めている。それらの能力は、特定の医療領域における不十分なデータによって制限されることが多く、一般化のためにMLLMによってどのような種類の画像が使用できるかを理解する必要性を強調している。本稿では,合成一般化(CG)モデルを用いた学習要素の組換えによる新しい組み合わせの理解手法を提案する。実験の結果、MLLMはCGを使って見えない医療画像を理解することができ、マルチタスクトレーニングで観察される一般化の主要因の1つとしてCGを特定した。
論文参考訳（メタデータ） (2024-12-28T07:50:00Z)
GCS-M3VLT: Guided Context Self-Attention based Multi-modal Medical Vision Language Transformer for Retinal Image Captioning [3.5948668755510136]
本稿では,視覚的特徴とテキスト的特徴を組み合わせた視覚的イメージキャプションのための新しい視覚言語モデルを提案する。 DeepEyeNetデータセットの実験では、0.023 BLEU@4の改善と重要な定性的な進歩が示されている。
論文参考訳（メタデータ） (2024-12-23T03:49:29Z)
A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。本稿では,MVLMの概要と適用した各種医療課題について概観する。また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文参考訳（メタデータ） (2024-11-19T03:27:05Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
GEM: Context-Aware Gaze EstiMation with Visual Search Behavior Matching for Chest Radiograph [32.1234295417225]
本稿では,放射線科医が収集した視線データを用いて視覚的な探索行動パターンをシミュレートする,文脈対応型Gaze EstiMation (GEM) ネットワークを提案する。コンテキスト認識モジュール、視覚行動グラフ構築、視覚行動マッチングで構成される。 4つの公開データセットの実験は、既存の方法よりもGEMの方が優れていることを示している。
論文参考訳（メタデータ） (2024-08-10T09:46:25Z)
HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。我々は, 単一モダリティモデルと最先端MRI-タブラルデータ融合法の両方に優れることを示す。
論文参考訳（メタデータ） (2024-03-20T05:50:04Z)
AliFuse: Aligning and Fusing Multi-modal Medical Data for Computer-Aided Diagnosis [1.9450973046619378]
マルチモーダル医療データの整合と融合のためのトランスフォーマーベースのフレームワークであるAlifuseを提案する。我々はAlifuseを用いてアルツハイマー病を分類し、5つのパブリックデータセット上で最先端のパフォーマンスを得る。
論文参考訳（メタデータ） (2024-01-02T07:28:21Z)
C^2M-DoT: Cross-modal consistent multi-view medical report generation with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。 C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文参考訳（メタデータ） (2023-10-09T02:31:36Z)
KiUT: Knowledge-injected U-Transformer for Radiology Report Generation [10.139767157037829]
X線画像から臨床的正確で一貫性のある段落を自動的に生成することを目的とする。知識注入型U-Transformer (KiUT) を提案する。
論文参考訳（メタデータ） (2023-06-20T07:27:28Z)
Cross-modal Memory Networks for Radiology Report Generation [30.13916304931662]
ラジオロジーレポート生成のためのエンコーダデコーダフレームワークを強化するために,クロスモーダルメモリネットワーク(CMN)を提案する。本モデルでは,放射線画像やテキストからの情報の整合性が向上し,臨床指標の精度向上に寄与する。
論文参考訳（メタデータ） (2022-04-28T02:32:53Z)
AlignTransformer: Hierarchical Alignment of Visual Regions and Disease Tags for Medical Report Generation [50.21065317817769]
本稿では,Align Hierarchical Attention (AHA)とMulti-Grained Transformer (MGT)モジュールを含むAlign Transformerフレームワークを提案する。パブリックなIU-XrayとMIMIC-CXRデータセットの実験は、AlignTransformerが2つのデータセットの最先端メソッドと競合する結果が得られることを示している。
論文参考訳（メタデータ） (2022-03-18T13:43:53Z)
Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文参考訳（メタデータ） (2020-10-20T20:05:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。