論文の概要: Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling
- arxiv url: http://arxiv.org/abs/2510.09299v1
- Date: Fri, 10 Oct 2025 11:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.806557
- Title: Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling
- Title(参考訳): 目で食う:人間の視線と深部予測モデリングのダイナミクス
- Authors: Tejaswi V. Panchagnula,
- Abstract要約: レヴィ・ウォークを通した動物は、資源の少ない環境に最適化された重い尾の階段を持つことが多い。
人間の視覚的な視線は、画像の時と同様のダイナミクスに従うことを示す。
人間の視覚探索が自然採餌の統計的法則に従属することを示す新たな証拠を提示し, 生成的および予測的枠組みによる視線モデリングの道を開いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Animals often forage via Levy walks stochastic trajectories with heavy tailed step lengths optimized for sparse resource environments. We show that human visual gaze follows similar dynamics when scanning images. While traditional models emphasize image based saliency, the underlying spatiotemporal statistics of eye movements remain underexplored. Understanding these dynamics has broad applications in attention modeling and vision-based interfaces. In this study, we conducted a large scale human subject experiment involving 40 participants viewing 50 diverse images under unconstrained conditions, recording over 4 million gaze points using a high speed eye tracker. Analysis of these data shows that the gaze trajectory of the human eye also follows a Levy walk akin to animal foraging. This suggests that the human eye forages for visual information in an optimally efficient manner. Further, we trained a convolutional neural network (CNN) to predict fixation heatmaps from image input alone. The model accurately reproduced salient fixation regions across novel images, demonstrating that key components of gaze behavior are learnable from visual structure alone. Our findings present new evidence that human visual exploration obeys statistical laws analogous to natural foraging and open avenues for modeling gaze through generative and predictive frameworks.
- Abstract(参考訳): 動物は、しばしばレヴィを経由し、狭い資源環境に最適化された重い尾の階段を持つ確率的な軌道を歩いた。
人間の視覚視線は、画像の走査時と同様のダイナミクスに従うことを示す。
従来のモデルでは画像に基づく正当性を重視していたが、眼球運動の時空間統計はいまだ探索されていない。
これらのダイナミクスを理解することは、注意モデリングや視覚ベースのインタフェースに幅広い応用がある。
本研究では,40人の被験者を対象に,制約のない条件下で50種類の画像が観察され,400万点以上の視線を高速眼球追跡装置を用いて記録した大規模人体実験を行った。
これらのデータから、人間の眼の視線軌跡も動物の捕食に類似したレヴィウォークを辿っていることが分かる。
このことは、人間の目が視覚情報のために最適な方法で捕食していることを示唆している。
さらに、画像入力だけで固定熱マップを予測するために畳み込みニューラルネットワーク(CNN)を訓練した。
本モデルでは,視覚構造のみから視線行動の重要成分を学習できることを実証し,新しい画像全体にわたる有意な固定領域を正確に再現した。
人間の視覚探索が自然採餌と類似する統計法則に従属することを示す新たな証拠を提示し, 生成的および予測的枠組みによる視線モデリングの道を開いた。
関連論文リスト
- DiffEye: Diffusion-Based Continuous Eye-Tracking Data Generation Conditioned on Natural Images [24.810828226931605]
DiffEyeは拡散に基づく訓練フレームワークで、自然画像の自由視聴中に連続的で多様な眼球運動軌跡をモデル化する。
スキャンパスに頼るのではなく、生の視線追跡トラジェクトリを活用することで、DiffEyeは人間の視線行動に固有の変動を捉える。
生成された軌跡はスキャンパスやサリエンシマップに変換することもでき、その結果、人間の視覚的注意の分布をより正確に反映する出力が得られる。
論文 参考訳(メタデータ) (2025-09-20T18:20:51Z) - Human Gaze Boosts Object-Centered Representation Learning [7.473473243713322]
近年の自己教師型学習モデルでは、人間に比べて画像認識のタスクにおいて、人間のような自我中心の視覚入力が著しく劣っている。
本稿では,中心的な視覚情報に焦点を合わせることで,自己中心型視覚学習が促進されるかどうかを検討する。
我々の実験は、中心的なビジョンに焦点を合わせることで、オブジェクト中心の表現がより良くなることを示した。
論文 参考訳(メタデータ) (2025-01-06T12:21:40Z) - GazeFusion: Saliency-Guided Image Generation [50.37783903347613]
拡散モデルは、テキストプロンプトだけを前提として、前例のない画像生成能力を提供する。
本稿では,人間の視覚的注意機構のデータ先行を生成プロセスに組み込むためのサリエンシ誘導フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-16T21:01:35Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Guiding Visual Attention in Deep Convolutional Neural Networks Based on
Human Eye Movements [0.0]
ディープ畳み込みニューラルネットワーク(DCNN)は、当初は生物学的ビジョンの原理にインスパイアされていた。
近年のディープラーニングの進歩は、この類似性を減らしているようだ。
有用なモデルを得るための純粋にデータ駆動型アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-21T17:59:23Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。