論文の概要: DiffEye: Diffusion-Based Continuous Eye-Tracking Data Generation Conditioned on Natural Images
- arxiv url: http://arxiv.org/abs/2509.16767v2
- Date: Thu, 09 Oct 2025 12:52:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.695848
- Title: DiffEye: Diffusion-Based Continuous Eye-Tracking Data Generation Conditioned on Natural Images
- Title(参考訳): DiffEye:自然画像に基づく拡散型連続眼球追跡データ生成
- Authors: Ozgur Kara, Harris Nisar, James M. Rehg,
- Abstract要約: DiffEyeは拡散に基づく訓練フレームワークで、自然画像の自由視聴中に連続的で多様な眼球運動軌跡をモデル化する。
スキャンパスに頼るのではなく、生の視線追跡トラジェクトリを活用することで、DiffEyeは人間の視線行動に固有の変動を捉える。
生成された軌跡はスキャンパスやサリエンシマップに変換することもでき、その結果、人間の視覚的注意の分布をより正確に反映する出力が得られる。
- 参考スコア(独自算出の注目度): 24.810828226931605
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Numerous models have been developed for scanpath and saliency prediction, which are typically trained on scanpaths, which model eye movement as a sequence of discrete fixation points connected by saccades, while the rich information contained in the raw trajectories is often discarded. Moreover, most existing approaches fail to capture the variability observed among human subjects viewing the same image. They generally predict a single scanpath of fixed, pre-defined length, which conflicts with the inherent diversity and stochastic nature of real-world visual attention. To address these challenges, we propose DiffEye, a diffusion-based training framework designed to model continuous and diverse eye movement trajectories during free viewing of natural images. Our method builds on a diffusion model conditioned on visual stimuli and introduces a novel component, namely Corresponding Positional Embedding (CPE), which aligns spatial gaze information with the patch-based semantic features of the visual input. By leveraging raw eye-tracking trajectories rather than relying on scanpaths, DiffEye captures the inherent variability in human gaze behavior and generates high-quality, realistic eye movement patterns, despite being trained on a comparatively small dataset. The generated trajectories can also be converted into scanpaths and saliency maps, resulting in outputs that more accurately reflect the distribution of human visual attention. DiffEye is the first method to tackle this task on natural images using a diffusion model while fully leveraging the richness of raw eye-tracking data. Our extensive evaluation shows that DiffEye not only achieves state-of-the-art performance in scanpath generation but also enables, for the first time, the generation of continuous eye movement trajectories. Project webpage: https://diff-eye.github.io/
- Abstract(参考訳): スキャンパスとサリエンシ予測のための多くのモデルが開発されており、通常はスキャンパスに基づいて訓練されており、眼球運動はササードによって接続された離散的な固定点の列としてモデル化され、生の軌跡に含まれる豊富な情報は破棄されることが多い。
さらに、既存のほとんどのアプローチは、同じ画像を見ている被験者の間で観察される変動を捉えていない。
それらは一般に、固定された、事前定義された長さの単一のスキャンパスを予測し、現実世界の視覚的注意の固有の多様性と確率的な性質と矛盾する。
これらの課題に対処するため,自然画像の自由視において,連続的かつ多様な眼球運動軌跡をモデル化する拡散学習フレームワークDiffEyeを提案する。
視覚刺激に基づく拡散モデルを構築し,空間的な視線情報を視覚入力のパッチベースの意味的特徴と整合させる新しいコンポーネント,CPE(Coun correspondinging Positional Embedding)を導入する。
スキャンパスに頼るのではなく、生の視線追跡トラジェクトリを活用することで、DiffEyeは人間の視線行動の本質的な変動を捉え、比較的小さなデータセットでトレーニングされているにもかかわらず、高品質で現実的な視線運動パターンを生成する。
生成された軌跡はスキャンパスやサリエンシマップに変換することもでき、その結果、人間の視覚的注意の分布をより正確に反映する出力が得られる。
DiffEyeは、拡散モデルを用いて、天然の視線追跡データの豊かさを十分に活用しながら、この課題に対処する最初の方法である。
以上の結果から,DiffEyeはスキャンパス生成における最先端の性能を達成できるだけでなく,連続眼球運動軌跡生成を初めて実現できることが示唆された。
プロジェクトWebページ: https://diff-eye.github.io/
関連論文リスト
- Modeling Human Gaze Behavior with Diffusion Models for Unified Scanpath Prediction [66.71402249062777]
ScanDiffは、拡散モデルと視覚変換器を組み合わせることで、多種多様な現実的なスキャンパスを生成する新しいアーキテクチャである。
本手法は,拡散モデルの性質を活用してスキャンパス変動を明示的にモデル化し,多種多様な視線軌道を生成する。
ベンチマークデータセットの実験によると、ScanDiffは、フリービューとタスク駆動のシナリオの両方で最先端のメソッドを上回っている。
論文 参考訳(メタデータ) (2025-07-30T18:36:09Z) - Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Unveiling the Truth: Exploring Human Gaze Patterns in Fake Images [34.02058539403381]
我々は、人間の意味的知識を活用して、偽画像検出のフレームワークに含まれる可能性を調べる。
予備的な統計的分析により、人間が本物の画像や変化した画像をどのように知覚するかの特徴的なパターンを探索する。
論文 参考訳(メタデータ) (2024-03-13T19:56:30Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Bayesian Eye Tracking [63.21413628808946]
モデルに基づく視線追跡は、目の特徴検出エラーの影響を受けやすい。
モデルベースアイトラッキングのためのベイズフレームワークを提案する。
提案手法は,最先端のモデルベースおよび学習ベースの手法と比較して,一般化能力の大幅な向上を示す。
論文 参考訳(メタデータ) (2021-06-25T02:08:03Z) - Modeling human visual search: A combined Bayesian searcher and saliency
map approach for eye movement guidance in natural scenes [0.0]
そこで本稿では,従量性マップによる視覚検索を事前情報として統合したベイズモデルを提案する。
視覚検索タスクにおける最初の2つの修正の予測において,最先端のサリエンシモデルが良好に機能することを示すが,その後,その性能は低下する。
これは、サリエンシマップだけでボトムアップファーストインプレッションをモデル化できるが、トップダウンタスク情報が重要な場合、スキャンパスを説明するのに十分ではないことを示唆している。
論文 参考訳(メタデータ) (2020-09-17T15:38:23Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。