論文の概要: FixationFormer: Direct Utilization of Expert Gaze Trajectories for Chest X-Ray Classification
- arxiv url: http://arxiv.org/abs/2603.22939v1
- Date: Tue, 24 Mar 2026 08:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.381758
- Title: FixationFormer: Direct Utilization of Expert Gaze Trajectories for Chest X-Ray Classification
- Title(参考訳): FixationFormer:胸部X線分類のためのエキスパート・ゲイズ軌道の直接利用
- Authors: Daniel Beckmann, Benjamin Risse,
- Abstract要約: 我々は、専門家の視線軌跡をトークンのシーケンスとして表現するトランスフォーマーベースのアーキテクチャであるFixationFormerを紹介した。
画像特徴と連動して視線シーケンスをモデル化することにより、視線データの空間性と変動性に対処する。
提案手法を3つのベンチマーク胸部X線データセット上で評価し,最先端の分類性能が得られたことを示す。
- 参考スコア(独自算出の注目度): 1.7004120188138268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expert eye movements provide a rich, passive source of domain knowledge in radiology, offering a powerful cue for integrating diagnostic reasoning into computer-aided analysis. However, direct integration into CNN-based systems, which historically have dominated the medical image analysis domain, is challenging: gaze recordings are sequential, temporally dense yet spatially sparse, noisy, and variable across experts. As a consequence, most existing image-based models utilize reduced representations such as heatmaps. In contrast, gaze naturally aligns with transformer architectures, as both are sequential in nature and rely on attention to highlight relevant input regions. In this work, we introduce FixationFormer, a transformer-based architecture that represents expert gaze trajectories as sequences of tokens, thereby preserving their temporal and spatial structure. By modeling gaze sequences jointly with image features, our approach addresses sparsity and variability in gaze data while enabling a more direct and fine-grained integration of expert diagnostic cues through explicit cross-attention between the image and gaze token sequences. We evaluate our method on three publicly available benchmark chest X-ray datasets and demonstrate that it achieves state-of-the-art classification performance, highlighting the value of representing gaze as a sequence in transformer-based medical image analysis.
- Abstract(参考訳): 専門家の眼球運動は、放射線学におけるドメイン知識の豊富な受動的情報源を提供し、診断推論をコンピュータ支援分析に統合するための強力な手がかりを提供する。
しかし、歴史的に医療画像分析領域を支配してきたCNNベースのシステムへの直接統合は困難である。
その結果、既存の画像ベースモデルのほとんどは、ヒートマップのような縮小表現を利用している。
対照的に、視線はトランスフォーマーアーキテクチャと自然に一致しており、どちらも本質的にシーケンシャルであり、関連する入力領域の強調に注意を払っている。
本研究では,トークンのシーケンスとして専門家の視線軌跡を表現し,時間的・空間的構造を保存する変換器ベースのアーキテクチャであるFixationFormerを紹介する。
画像の特徴と連動して視線シーケンスをモデル化することにより、画像と視線トークンシークエンス間の明示的な相互関連性を通じて、より直接的かつきめ細かな専門的診断キューの統合を可能にしながら、視線データの空間性と変動性に対処する。
提案手法を3つの公開ベンチマーク胸部X線データセットで評価し,この手法が最先端の分類性能を実現することを実証し,トランスフォーマーを用いた医用画像解析におけるシーケンスとしての視線表現の価値を強調した。
関連論文リスト
- Layout-Guided Controllable Pathology Image Generation with In-Context Diffusion Transformers [57.54843029965778]
制御可能な病理画像合成には、空間配置、組織形態、意味的詳細の信頼できる規制が必要である。
In-Context Diffusion Transformer (IC-DiT) は,空間レイアウト,テキスト記述,視覚的埋め込みを統合拡散変換器に組み込んだレイアウト認識生成モデルである。
IC-DiTは既存の方法よりも忠実度が高く、空間制御性が強く、診断の整合性が良くなる。
論文 参考訳(メタデータ) (2026-03-11T06:14:11Z) - Rescind: Countering Image Misconduct in Biomedical Publications with Vision-Language and State-Space Modeling [8.024142807011378]
バイオメディカル・イメージ・フォージェリーの生成と検出を両立させる最初の視覚言語ガイドフレームワークを提案する。
拡散に基づく合成と視覚言語プロンプトを組み合わせることで,現実的かつ意味論的に制御された操作を可能にする。
Integscanは、検出とローカライゼーションの両方において、技術パフォーマンスの状態を達成し、自動化された科学的完全性分析の強力な基盤を確立する。
論文 参考訳(メタデータ) (2026-01-12T22:13:58Z) - Plasticine: A Traceable Diffusion Model for Medical Image Translation [79.39689106440389]
我々は、私たちの知る限り、トレーサビリティを主目的として明示的に設計された最初のエンドツーエンド画像変換フレームワークであるPlasticineを提案する。
本手法は,デノナイジング拡散フレームワーク内での強度変換と空間変換を組み合わせた手法である。
この設計により、解釈可能な強度遷移と空間的コヒーレントな変形を持つ合成画像の生成が可能となり、翻訳プロセス全体を通してピクセルワイドトレーサビリティをサポートする。
論文 参考訳(メタデータ) (2025-12-20T18:01:57Z) - GEM: Context-Aware Gaze EstiMation with Visual Search Behavior Matching for Chest Radiograph [32.1234295417225]
本稿では,放射線科医が収集した視線データを用いて視覚的な探索行動パターンをシミュレートする,文脈対応型Gaze EstiMation (GEM) ネットワークを提案する。
コンテキスト認識モジュール、視覚行動グラフ構築、視覚行動マッチングで構成される。
4つの公開データセットの実験は、既存の方法よりもGEMの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-08-10T09:46:25Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - VALD-MD: Visual Attribution via Latent Diffusion for Medical Diagnostics [0.0]
医用画像における視覚的属性は、医用画像の診断関連成分を明確にすることを目指している。
本稿では、潜在拡散モデルとドメイン固有大言語モデルを組み合わせた新しい生成的視覚属性手法を提案する。
結果として生じるシステムは、ゼロショット局所化疾患誘導を含む様々な潜在能力を示す。
論文 参考訳(メタデータ) (2024-01-02T19:51:49Z) - ScoreNet: Learning Non-Uniform Attention and Augmentation for
Transformer-Based Histopathological Image Classification [11.680355561258427]
高解像度画像はデジタル病理の進歩を妨げる。
パッチベースの処理は、しばしば複数のインスタンス学習(MIL)を組み込んで、画像レベルの予測をもたらす局所的なパッチレベルの表現を集約する。
本稿では,組織像分類に適したトランスフォーマーアーキテクチャを提案する。
局所的なきめ細かな注意と粗いグローバルな注意機構を組み合わせることで、高解像度画像の意味的な表現を効率的な計算コストで学習する。
論文 参考訳(メタデータ) (2022-02-15T16:55:09Z) - Cross-Modal Contrastive Learning for Abnormality Classification and
Localization in Chest X-rays with Radiomics using a Feedback Loop [63.81818077092879]
医療画像のためのエンドツーエンドのセミスーパーバイスドクロスモーダルコントラスト学習フレームワークを提案する。
まず、胸部X線を分類し、画像特徴を生成するために画像エンコーダを適用する。
放射能の特徴は別の専用エンコーダを通過し、同じ胸部x線から生成された画像の特徴の正のサンプルとして機能する。
論文 参考訳(メタデータ) (2021-04-11T09:16:29Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。