論文の概要: Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs
- arxiv url: http://arxiv.org/abs/2603.06697v1
- Date: Thu, 05 Mar 2026 02:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.887459
- Title: Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs
- Title(参考訳): 視線による視線追跡 : 医用VLMのための視覚的推論スーパービジョン
- Authors: Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao,
- Abstract要約: 視覚言語モデル(VLM)は画像を視覚トークンとして処理するが、その中間的推論はテキストで実行されることが多い。
我々は、視線を監督してVLM推論を導出し、小さな専用の視線トークンを導入する。
これらのトークンは、視線選択された画像パッチのインデックスを時間順に予測し、人間に似た証拠の取得と統合をモデルに促すように訓練されている。
- 参考スコア(独自算出の注目度): 24.510023374770316
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision--language models (VLMs) process images as visual tokens, yet their intermediate reasoning is often carried out in text, which can be suboptimal for visually grounded radiology tasks. Radiologists instead diagnose via sequential visual search; eye-tracking captures this process as time-ordered gaze trajectories that reveal how evidence is acquired over time. We use eye-gaze as supervision to guide VLM reasoning by introducing a small set of dedicated gaze tokens. These tokens are trained to predict gaze-selected image patch indices in temporal order, encouraging the model to follow human-like evidence acquisition and integration. Experiments on MIMIC-EYE and multiple external zero-shot benchmarks show consistent gains over baselines, achieving state-of-the-art in-domain performance and improved out-of-domain robustness. These results highlight temporally ordered gaze as an effective supervision signal for learning visually grounded medical reasoning.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像を視覚トークンとして処理するが、その中間的推論は、しばしばテキストで実行される。
視線追跡は、この過程を時間順の視線軌跡として捉え、時間とともにどのように証拠が取得されるかを明らかにする。
我々は、視線を監督してVLM推論を導出し、小さな専用の視線トークンを導入する。
これらのトークンは、視線選択された画像パッチのインデックスを時間順に予測し、人間に似た証拠の取得と統合をモデルに促すように訓練されている。
MIMIC-EYEと複数の外部ゼロショットベンチマークの実験は、ベースラインよりも一貫したゲインを示し、最先端のドメインパフォーマンスを実現し、ドメイン外の堅牢性を改善した。
これらの結果から,視覚的根拠のある医学的推論を学習するための効果的な監視信号として,時間的に順序付けられた視線が強調された。
関連論文リスト
- Latent Implicit Visual Reasoning [59.39913238320798]
本稿では,視覚的推論トークンの発見と使用をLMMに指示するタスク非依存機構を提案する。
提案手法は直接微調整より優れ,様々な視覚中心のタスクにおいて最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-12-24T14:59:49Z) - Think Twice to See More: Iterative Visual Reasoning in Medical VLMs [21.083636394814217]
私たちは、人間の専門家の反復的推論プロセスをエミュレートするフレームワークViTARを紹介します。
ViTARは、医療画像をインタラクティブなオブジェクトとして扱い、モデルが多段階の視覚的推論を行えるようにする。
論文 参考訳(メタデータ) (2025-10-11T06:39:57Z) - Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence [69.86946427928511]
大型視覚言語モデル(LVLM)における幻覚を駆動する内部メカニズムについて検討する。
本稿では,視覚的コンテキストに対する注目ヘッド出力の感度を定量化する指標として,視覚認識型頭部偏差(VHD)を紹介する。
視覚認識型頭部強化(VHR)は,視覚認識型頭部機能を高めることで幻覚を緩和するための訓練不要なアプローチである。
論文 参考訳(メタデータ) (2024-12-18T15:29:30Z) - GEM: Context-Aware Gaze EstiMation with Visual Search Behavior Matching for Chest Radiograph [32.1234295417225]
本稿では,放射線科医が収集した視線データを用いて視覚的な探索行動パターンをシミュレートする,文脈対応型Gaze EstiMation (GEM) ネットワークを提案する。
コンテキスト認識モジュール、視覚行動グラフ構築、視覚行動マッチングで構成される。
4つの公開データセットの実験は、既存の方法よりもGEMの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-08-10T09:46:25Z) - Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement [26.480515954528848]
本稿では,一般的な視覚言語モデルとリモート生理計測タスクをうまく統合する新しいフレームワークを提案する。
フレームワークを最適化する一連の生成的かつコントラスト的な学習メカニズムを開発した。
本手法は,視覚・テキストモダリティにおける周波数関連知識の消化・調整にVLMを初めて適用した手法である。
論文 参考訳(メタデータ) (2024-07-11T13:45:50Z) - GazeGNN: A Gaze-Guided Graph Neural Network for Chest X-ray
Classification [9.266556662553345]
本稿では,視線誘導型グラフニューラルネットワークGazeGNNを提案する。
本研究では,本論文で初めてリアルタイム・リアルタイム・エンド・ツー・エンド病の分類アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-05-29T17:01:54Z) - A Deep Learning Approach for the Segmentation of Electroencephalography
Data in Eye Tracking Applications [56.458448869572294]
脳波データの時系列セグメンテーションのための新しいフレームワークDETRtimeを紹介する。
エンドツーエンドのディープラーニングベースのフレームワークは、コンピュータビジョンの進歩を前面に立たせています。
我々のモデルは脳波睡眠ステージセグメンテーションのタスクにおいてよく一般化される。
論文 参考訳(メタデータ) (2022-06-17T10:17:24Z) - Follow My Eye: Using Gaze to Supervise Computer-Aided Diagnosis [54.60796004113496]
医用画像を読む放射線科医の眼球運動は,DNNベースのコンピュータ支援診断システム(CAD)を訓練するための新たな指導形態であることが実証された。
画像を読んでいるときに、放射線科医の視線を記録します。
視線情報は処理され、アテンション一貫性モジュールを介してDNNの注意を監督するために使用される。
論文 参考訳(メタデータ) (2022-04-06T08:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。