論文の概要: Modeling Human Gaze Behavior with Diffusion Models for Unified Scanpath Prediction
- arxiv url: http://arxiv.org/abs/2507.23021v1
- Date: Wed, 30 Jul 2025 18:36:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.530402
- Title: Modeling Human Gaze Behavior with Diffusion Models for Unified Scanpath Prediction
- Title(参考訳): 統合走査パス予測のための拡散モデルによる人間の視線挙動のモデル化
- Authors: Giuseppe Cartella, Vittorio Cuculo, Alessandro D'Amelio, Marcella Cornia, Giuseppe Boccignone, Rita Cucchiara,
- Abstract要約: ScanDiffは、拡散モデルと視覚変換器を組み合わせることで、多種多様な現実的なスキャンパスを生成する新しいアーキテクチャである。
本手法は,拡散モデルの性質を活用してスキャンパス変動を明示的にモデル化し,多種多様な視線軌道を生成する。
ベンチマークデータセットの実験によると、ScanDiffは、フリービューとタスク駆動のシナリオの両方で最先端のメソッドを上回っている。
- 参考スコア(独自算出の注目度): 66.71402249062777
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Predicting human gaze scanpaths is crucial for understanding visual attention, with applications in human-computer interaction, autonomous systems, and cognitive robotics. While deep learning models have advanced scanpath prediction, most existing approaches generate averaged behaviors, failing to capture the variability of human visual exploration. In this work, we present ScanDiff, a novel architecture that combines diffusion models with Vision Transformers to generate diverse and realistic scanpaths. Our method explicitly models scanpath variability by leveraging the stochastic nature of diffusion models, producing a wide range of plausible gaze trajectories. Additionally, we introduce textual conditioning to enable task-driven scanpath generation, allowing the model to adapt to different visual search objectives. Experiments on benchmark datasets show that ScanDiff surpasses state-of-the-art methods in both free-viewing and task-driven scenarios, producing more diverse and accurate scanpaths. These results highlight its ability to better capture the complexity of human visual behavior, pushing forward gaze prediction research. Source code and models are publicly available at https://aimagelab.github.io/ScanDiff.
- Abstract(参考訳): 人間の視線スキャンパスの予測は、人間のコンピュータインタラクション、自律システム、認知ロボティクスなど、視覚的注意の理解に不可欠である。
ディープラーニングモデルには高度なスキャンパス予測があるが、既存のアプローチのほとんどは平均的な振る舞いを生成しており、人間の視覚探索の多様性を捉えていない。
本研究では,拡散モデルと視覚変換器を組み合わせることで,多様な現実的なスキャンパスを生成する新しいアーキテクチャであるScanDiffを提案する。
本手法は,拡散モデルの確率的性質を利用して,スキャンパスの変動を明示的にモデル化し,広い範囲の視線軌道を生成する。
さらに、タスク駆動型スキャンパス生成を可能にするためにテキスト条件付けを導入し、異なるビジュアル検索目的に適応できるようにする。
ベンチマークデータセットの実験によると、ScanDiffは、フリービューとタスク駆動のシナリオの両方において最先端の手法を超越し、より多様で正確なスキャンパスを生成する。
これらの結果は、人間の視覚行動の複雑さをよりよく捉え、前方視線予測研究を推し進める能力を強調している。
ソースコードとモデルはhttps://aimagelab.github.io/ScanDiff.comで公開されている。
関連論文リスト
- Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。
我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。
これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-07-24T15:19:23Z) - SliderSpace: Decomposing the Visual Capabilities of Diffusion Models [50.82362500995365]
SliderSpaceは拡散モデルの視覚的能力を自動分解するフレームワークである。
単一のテキストプロンプトから複数の解釈可能かつ多様な方向を同時に検出する。
本手法は,ベースラインに比べて多様性があり,有用である。
論文 参考訳(メタデータ) (2025-02-03T18:59:55Z) - Unified Dynamic Scanpath Predictors Outperform Individually Trained Neural Models [18.327960366321655]
本研究では,ビデオ中のスキャンパスを予測するために,ディープラーニングに基づくソーシャルキュー統合モデルを構築した。
我々は,自由視聴条件下で観察された動的な社会シーンの視線に対するアプローチを評価した。
結果は、すべての観察者のスキャンパスに基づいて訓練された単一の統一モデルが、個別に訓練されたモデルよりも同等以上のパフォーマンスを示すことを示している。
論文 参考訳(メタデータ) (2024-05-05T13:15:11Z) - EyeFormer: Predicting Personalized Scanpaths with Transformer-Guided Reinforcement Learning [31.583764158565916]
視覚的ユーザインタフェースにおけるスキャンパスを予測する機械学習モデルであるEyeFormerを提案する。
我々のモデルは、いくつかのユーザ・スキャンパス・サンプルが与えられたとき、パーソナライズされた予測を生成するユニークな能力を持っている。
固定位置や持続時間を含む全スキャンパス情報を個人や様々な刺激タイプで予測することができる。
論文 参考訳(メタデータ) (2024-04-15T22:26:27Z) - ScanDL: A Diffusion Model for Generating Synthetic Scanpaths on Texts [0.5520145204626482]
読書における眼球運動は精神言語研究において重要な役割を担っている。
眼球運動データの不足とアプリケーション時の利用不可能は、この研究のラインにとって大きな課題となっている。
ScanDLはテキスト上で合成スキャンパスを生成する新しい離散シーケンス対シーケンス拡散モデルである。
論文 参考訳(メタデータ) (2023-10-24T07:52:19Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - An Inter-observer consistent deep adversarial training for visual
scanpath prediction [66.46953851227454]
本稿では,軽量なディープニューラルネットワークによるスキャンパス予測のための,サーバ間一貫した対向トレーニング手法を提案する。
我々は、最先端の手法に関して、我々のアプローチの競争力を示す。
論文 参考訳(メタデータ) (2022-11-14T13:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。