Fugu-MT 論文翻訳(概要): Beyond Scanpaths: Graph-Based Gaze Simulation in Dynamic Scenes

論文の概要: Beyond Scanpaths: Graph-Based Gaze Simulation in Dynamic Scenes

arxiv url: http://arxiv.org/abs/2603.28319v1
Date: Mon, 30 Mar 2026 11:41:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.367665
Title: Beyond Scanpaths: Graph-Based Gaze Simulation in Dynamic Scenes
Title（参考訳）: Beyond Scanpaths: 動的シーンにおけるグラフベースのゲイズシミュレーション
Authors: Luke Palmer, Petar Palasek, Hazem Abdelkawy,
Abstract要約: 我々は、自己回帰力学系としての視線モデリングを定式化し、時間とともに生の視線軌跡を明示的にアンロールする。私たちはまた、エゴ中心の運転映像を見ている30人の参加者による生の視線データのデータセットであるFocus100をリリースしました。
参考スコア（独自算出の注目度）: 0.2039123720459736
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Accurately modelling human attention is essential for numerous computer vision applications, particularly in the domain of automotive safety. Existing methods typically collapse gaze into saliency maps or scanpaths, treating gaze dynamics only implicitly. We instead formulate gaze modelling as an autoregressive dynamical system and explicitly unroll raw gaze trajectories over time, conditioned on both gaze history and the evolving environment. Driving scenes are represented as gaze-centric graphs processed by the Affinity Relation Transformer (ART), a heterogeneous graph transformer that models interactions between driver gaze, traffic objects, and road structure. We further introduce the Object Density Network (ODN) to predict next-step gaze distributions, capturing the stochastic and object-centric nature of attentional shifts in complex environments. We also release Focus100, a new dataset of raw gaze data from 30 participants viewing egocentric driving footage. Trained directly on raw gaze, without fixation filtering, our unified approach produces more natural gaze trajectories, scanpath dynamics, and saliency maps than existing attention models, offering valuable insights for the temporal modelling of human attention in dynamic environments.
Abstract（参考訳）: 人間の注意を正確にモデル化することは、多くのコンピュータビジョンアプリケーション、特に自動車安全分野において不可欠である。既存の方法は通常、視線を静かな地図やスキャンパスに分解し、視線力学を暗黙的に扱う。代わりに、自己回帰力学系としての視線モデリングを定式化し、視線履歴と進化環境の両方を条件とした生の視線軌跡を時間とともに明示的にアンロールする。運転シーンは、運転者の視線、交通物、道路構造間の相互作用をモデル化する異種グラフトランスフォーマーであるAffinity Relation Transformer (ART)によって処理される視線中心のグラフとして表現される。さらに,物体密度ネットワーク (ODN) を導入し, 複雑な環境下での注目変動の確率的, 対象中心的な性質を捉える。私たちはまた、エゴ中心の運転映像を見ている30人の参加者による生の視線データのデータセットであるFocus100をリリースしました。従来の注意モデルよりも自然視線、走査パス力学、塩分マップを生視で直接訓練し、動的環境における人間の注意の時間的モデリングに有意義な洞察を与える。

関連論文リスト

Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation [57.28703268044067]
ロボット操作のための新しいデュアルストリームビュー変換器であるCortical Policyを提案する。われわれのフレームワークは、ロボット操作の新しい視点を提供し、視覚に基づくロボット制御の幅広い応用の可能性を秘めている。
論文参考訳（メタデータ） (2026-03-22T04:18:54Z)
Eye Gaze-Informed and Context-Aware Pedestrian Trajectory Prediction in Shared Spaces with Automated Shuttles: A Virtual Reality Study [12.640255397914018]
本稿では、歩行者が様々なシナリオで自動シャトルとどのように相互作用するかをキャプチャするバーチャルリアリティー(VR)研究について述べる。共有空間における歩行者の意思決定における重要な行動パターンを明らかにする。本稿では、歩行者の軌跡、きめ細かな視線力学、文脈要因を統合したマルチモーダルな視線インフォームド・コンテキスト認識予測モデルであるGazeX-LSTMを提案する。
論文参考訳（メタデータ） (2026-03-20T09:57:23Z)
ARGaze: Autoregressive Transformers for Online Egocentric Gaze Estimation [46.30718574969354]
エゴセントリックな視線推定は、カメラ装着者が過去と現在のフレームのみを使用して、ファースト・パーソン・ビデオから見ている場所を予測する。本稿では,視線推定を逐次予測として再構成するARGazeを提案する。オンライン評価では,複数のエゴセントリックなベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2026-02-04T23:33:16Z)
Foraging with the Eyes: Dynamics in Human Visual Gaze and Deep Predictive Modeling [0.0]
レヴィ・ウォークを通した動物は、資源の少ない環境に最適化された重い尾の階段を持つことが多い。人間の視覚的な視線は、画像の時と同様のダイナミクスに従うことを示す。人間の視覚探索が自然採餌の統計的法則に従属することを示す新たな証拠を提示し, 生成的および予測的枠組みによる視線モデリングの道を開いた。
論文参考訳（メタデータ） (2025-10-10T11:45:51Z)
DiffEye: Diffusion-Based Continuous Eye-Tracking Data Generation Conditioned on Natural Images [24.810828226931605]
DiffEyeは拡散に基づく訓練フレームワークで、自然画像の自由視聴中に連続的で多様な眼球運動軌跡をモデル化する。スキャンパスに頼るのではなく、生の視線追跡トラジェクトリを活用することで、DiffEyeは人間の視線行動に固有の変動を捉える。生成された軌跡はスキャンパスやサリエンシマップに変換することもでき、その結果、人間の視覚的注意の分布をより正確に反映する出力が得られる。
論文参考訳（メタデータ） (2025-09-20T18:20:51Z)
Modeling Human Gaze Behavior with Diffusion Models for Unified Scanpath Prediction [66.71402249062777]
ScanDiffは、拡散モデルと視覚変換器を組み合わせることで、多種多様な現実的なスキャンパスを生成する新しいアーキテクチャである。本手法は,拡散モデルの性質を活用してスキャンパス変動を明示的にモデル化し,多種多様な視線軌道を生成する。ベンチマークデータセットの実験によると、ScanDiffは、フリービューとタスク駆動のシナリオの両方で最先端のメソッドを上回っている。
論文参考訳（メタデータ） (2025-07-30T18:36:09Z)
Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文参考訳（メタデータ） (2023-01-11T18:39:34Z)
Predicting Future Occupancy Grids in Dynamic Environment with Spatio-Temporal Learning [63.25627328308978]
本稿では,将来の占有予測を生成するための時間的予測ネットワークパイプラインを提案する。現在のSOTAと比較して、我々の手法は3秒の長い水平線での占有を予測している。我々は、さらなる研究を支援するために、nulisに基づくグリッド占有データセットを公開します。
論文参考訳（メタデータ） (2022-05-06T13:45:32Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)
SCOUT: Socially-COnsistent and UndersTandable Graph Attention Network for Trajectory Prediction of Vehicles and VRUs [0.0]
SCOUTは、グラフとしてシーンの柔軟で汎用的な表現を使用する新しい注意ベースのグラフニューラルネットワークです。我々は3つの異なる注意メカニズムを探索し,鳥眼視と車載都市データを用いてそのスキームをテストする。 RounDデータセットの全く新しいシナリオでテストすることにより、モデルの柔軟性と転送性を評価します。
論文参考訳（メタデータ） (2021-02-12T06:29:28Z)
Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文参考訳（メタデータ） (2020-07-23T14:31:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。