Fugu-MT 論文翻訳(概要): GEM: Context-Aware Gaze EstiMation with Visual Search Behavior Matching for Chest Radiograph

論文の概要: GEM: Context-Aware Gaze EstiMation with Visual Search Behavior Matching for Chest Radiograph

arxiv url: http://arxiv.org/abs/2408.05502v1
Date: Sat, 10 Aug 2024 09:46:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 18:41:36.311655
Title: GEM: Context-Aware Gaze EstiMation with Visual Search Behavior Matching for Chest Radiograph
Title（参考訳）: GEM:胸部X線写真における視覚的探索行動マッチングを用いた文脈認識ゲゼ推定
Authors: Shaonan Liu, Wenting Chen, Jie Liu, Xiaoling Luo, Linlin Shen,
Abstract要約: 本稿では,放射線科医が収集した視線データを用いて視覚的な探索行動パターンをシミュレートする,文脈対応型Gaze EstiMation (GEM) ネットワークを提案する。コンテキスト認識モジュール、視覚行動グラフ構築、視覚行動マッチングで構成される。 4つの公開データセットの実験は、既存の方法よりもGEMの方が優れていることを示している。
参考スコア（独自算出の注目度）: 32.1234295417225
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Gaze estimation is pivotal in human scene comprehension tasks, particularly in medical diagnostic analysis. Eye-tracking technology facilitates the recording of physicians' ocular movements during image interpretation, thereby elucidating their visual attention patterns and information-processing strategies. In this paper, we initially define the context-aware gaze estimation problem in medical radiology report settings. To understand the attention allocation and cognitive behavior of radiologists during the medical image interpretation process, we propose a context-aware Gaze EstiMation (GEM) network that utilizes eye gaze data collected from radiologists to simulate their visual search behavior patterns throughout the image interpretation process. It consists of a context-awareness module, visual behavior graph construction, and visual behavior matching. Within the context-awareness module, we achieve intricate multimodal registration by establishing connections between medical reports and images. Subsequently, for a more accurate simulation of genuine visual search behavior patterns, we introduce a visual behavior graph structure, capturing such behavior through high-order relationships (edges) between gaze points (nodes). To maintain the authenticity of visual behavior, we devise a visual behavior-matching approach, adjusting the high-order relationships between them by matching the graph constructed from real and estimated gaze points. Extensive experiments on four publicly available datasets demonstrate the superiority of GEM over existing methods and its strong generalizability, which also provides a new direction for the effective utilization of diverse modalities in medical image interpretation and enhances the interpretability of models in the field of medical imaging. https://github.com/Tiger-SN/GEM
Abstract（参考訳）: 視線推定は人間のシーン理解作業、特に医学的診断分析において重要な役割を担っている。視線追跡技術は、画像解釈中の医師の眼球運動の記録を容易にし、視覚的注意パターンと情報処理戦略を解明する。本稿では,まず,医学放射線学報告設定における文脈認識型視線推定問題を定義する。医用画像解釈過程における放射線科医の注意配分と認知行動を理解するために,放射線科医が収集した視線データを用いて,画像解釈過程を通して視覚的検索行動パターンをシミュレートする,文脈認識型迷路推定(GEM)ネットワークを提案する。コンテキスト認識モジュール、視覚行動グラフ構築、視覚行動マッチングで構成される。コンテキスト認識モジュール内では,医療報告と画像の接続を確立することで,複雑なマルチモーダル登録を実現する。次に、真の視覚探索行動パターンをより正確にシミュレーションするために、視線点(ノード)間の高次関係(エッジ)を通して、視覚行動グラフ構造を導入する。視覚行動の真正性を維持するため,実測点と推定点から構築したグラフをマッチングすることにより,視覚行動マッチング手法を考案し,それらの高次関係を調整した。医用画像の解釈における多彩なモダリティを効果的に活用するための新たな方向性を提供するとともに、医用画像の分野におけるモデルの解釈可能性を高める。 https://github.com/Tiger-SN/GEM

関連論文リスト

Computed Tomography Visual Question Answering with Cross-modal Feature Graphing [16.269682136158004]
医用画像における視覚的質問応答 (VQA) は、自然言語クエリに応答して複雑な画像データを自動的に解釈することにより、臨床診断を支援することを目的としている。既存の研究は、医用画像と臨床の質問から特徴を独立して抽出するために、視覚的およびテキスト的エンコーダに頼っている。本稿では,有能な特徴のグラフ表現によって強化された新しい大規模言語モデル(LLM)ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-06T10:37:16Z)
Shifts in Doctors' Eye Movements Between Real and AI-Generated Medical Images [5.969442345531191]
アイトラッキング分析は医療画像において重要な役割を担い、放射線医が臨床症例を視覚的に解釈し診断する方法に関する重要な洞察を提供する。まず,ササード方向,振幅,関節分布など,様々な眼球運動パターンの分布を測定することで,放射線技師の注意と一致を解析した。真正(リアル)画像と深層学習(フェイク)画像の視線変化について検討した。
論文参考訳（メタデータ） (2025-04-21T10:13:59Z)
Visual Attention Graph [21.860357478331107]
本研究では,視覚的満足度とスキャンパスを同時に符号化するアテンショングラフという新しいアテンション表現を提案する。注目グラフでは、意味に基づくスキャンパスはグラフ上の経路で定義され、各ノード上の固定密度を計算することでオブジェクトの正当性を得ることができる。
論文参考訳（メタデータ） (2025-03-11T15:22:44Z)
Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文参考訳（メタデータ） (2024-09-13T10:19:10Z)
Visual Neural Decoding via Improved Visual-EEG Semantic Consistency [3.4061238650474657]
EEG機能をCLIP埋め込みスペースに直接マッピングするメソッドは、マッピングバイアスを導入し、セマンティックな矛盾を引き起こす可能性がある。最適アライメントを容易にするために,これらの2つのモードのセマンティックな特徴を明示的に抽出する Visual-EEG Semantic Decouple Framework を提案する。提案手法は,ゼロショットニューラルデコードタスクの最先端化を実現する。
論文参考訳（メタデータ） (2024-08-13T10:16:10Z)
Multimodal Learning and Cognitive Processes in Radiology: MedGaze for Chest X-ray Scanpath Prediction [10.388541520456714]
提案システムは,放射線学報告やCXR画像から視線シーケンスを予測することを目的としている。本モデルでは, 医用スキャンパス予測において重要な固定座標と期間を予測し, コンピュータビジョンコミュニティにおける既存モデルよりも優れていた。放射線学者の評価に基づいて、MedGazeは関連する領域に焦点をあてたヒトのような視線配列を生成することができる。
論文参考訳（メタデータ） (2024-06-28T06:38:58Z)
Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文参考訳（メタデータ） (2024-03-21T17:58:56Z)
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文参考訳（メタデータ） (2024-03-19T03:59:14Z)
Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文参考訳（メタデータ） (2024-03-14T11:29:47Z)
MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文参考訳（メタデータ） (2024-02-03T05:48:50Z)
Mining Gaze for Contrastive Learning toward Computer-Assisted Diagnosis [61.089776864520594]
医用画像のテキストレポートの代替としてアイトラッキングを提案する。医用画像を読み,診断する際に放射線科医の視線を追跡することにより,その視覚的注意と臨床的理由を理解することができる。対照的な学習フレームワークのためのプラグイン・アンド・プレイモジュールとして,McGIP (McGIP) を導入した。
論文参考訳（メタデータ） (2023-12-11T02:27:45Z)
Controllable Mind Visual Diffusion Model [58.83896307930354]
脳信号の可視化は、人間の視覚システムとコンピュータビジョンモデルの間の重要なインターフェースとして機能する活発な研究領域として登場した。我々は、制御可能なマインドビジュアルモデル拡散(CMVDM)と呼ばれる新しいアプローチを提案する。 CMVDMは属性アライメントとアシスタントネットワークを用いてfMRIデータから意味情報とシルエット情報を抽出する。そして、制御モデルを利用して抽出した情報を画像合成に活用し、セマンティクスやシルエットの観点から視覚刺激によく似た画像を生成する。
論文参考訳（メタデータ） (2023-05-17T11:36:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。