論文の概要: Toward Improving the Evaluation of Visual Attention Models: a
Crowdsourcing Approach
- arxiv url: http://arxiv.org/abs/2002.04407v2
- Date: Thu, 7 May 2020 13:34:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 01:47:11.321542
- Title: Toward Improving the Evaluation of Visual Attention Models: a
Crowdsourcing Approach
- Title(参考訳): 視覚的注意モデルの評価改善に向けて--クラウドソーシングアプローチ
- Authors: Dario Zanca, Stefano Melacci, Marco Gori
- Abstract要約: 最先端のモデルは、人間のデータからサリエンシマップを学習することに焦点を当てている。
私たちは、現在の測定値の限界を、唾液度予測とスキャンパス類似性に強調する。
本研究では, 教師なし重力モデルによって生じる走査パスが, 有能で有能な人間の観察者にとっていかに有用かを評価することを目的とした研究である。
- 参考スコア(独自算出の注目度): 21.81407627962409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human visual attention is a complex phenomenon. A computational modeling of
this phenomenon must take into account where people look in order to evaluate
which are the salient locations (spatial distribution of the fixations), when
they look in those locations to understand the temporal development of the
exploration (temporal order of the fixations), and how they move from one
location to another with respect to the dynamics of the scene and the mechanics
of the eyes (dynamics). State-of-the-art models focus on learning saliency maps
from human data, a process that only takes into account the spatial component
of the phenomenon and ignore its temporal and dynamical counterparts. In this
work we focus on the evaluation methodology of models of human visual
attention. We underline the limits of the current metrics for saliency
prediction and scanpath similarity, and we introduce a statistical measure for
the evaluation of the dynamics of the simulated eye movements. While deep
learning models achieve astonishing performance in saliency prediction, our
analysis shows their limitations in capturing the dynamics of the process. We
find that unsupervised gravitational models, despite of their simplicity,
outperform all competitors. Finally, exploiting a crowd-sourcing platform, we
present a study aimed at evaluating how strongly the scanpaths generated with
the unsupervised gravitational models appear plausible to naive and expert
human observers.
- Abstract(参考訳): 人間の視覚的注意は複雑な現象である。
この現象の計算モデルでは、人々がどの場所を見るか(固定の空間分布)、探索の時間的発展(固定の時間的順序)を理解するためにそれらの場所を見るとき、そしてシーンの力学と目(力学)の力学に関して、ある場所から別の場所へどのように移動するかを考慮に入れなければならない。
最先端のモデルは、その現象の空間的構成要素のみを考慮し、その時間的および動的対応を無視するプロセスである、人間のデータから塩分マップを学習することに焦点を当てている。
本研究では,人間の視覚的注意のモデルの評価手法に焦点をあてる。
そこで本研究では, サリエンシー予測とスキャンパス類似性に関する現在の指標の限界を概説し, シミュレーション眼球運動の動態評価のための統計的尺度を提案する。
深層学習モデルは塩分予測において驚くべき性能を達成するが,本解析の結果は,プロセスのダイナミクスを捉える上での限界を示している。
教師なしの重力モデルは、単純さにもかかわらず、全ての競合より優れています。
最後に,クラウドソーシングプラットフォームを利用して,教師なしの重力モデルで生成されたスキャンパスが,有能で熟練した観察者にとっていかに強固に見えるかを評価することを目的とした研究を行った。
関連論文リスト
- Computing a human-like reaction time metric from stable recurrent vision
models [11.87006916768365]
我々は,刺激計算可能なタスク最適化モデルから,反応時間の計算量を構築するための汎用方法論をスケッチする。
評価基準は,4つの異なる視覚的意思決定タスクの刺激操作において,人間の反応時間のパターンと一致していることを示す。
この研究は、他の様々な認知タスクの文脈において、モデルと人間の視覚戦略の時間的アライメントを探索する方法を開拓する。
論文 参考訳(メタデータ) (2023-06-20T14:56:02Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - Neural Superstatistics for Bayesian Estimation of Dynamic Cognitive
Models [2.7391842773173334]
我々は,時間変化パラメータと時間不変パラメータの両方を復元できるベイズ推論のシミュレーションに基づくディープラーニング手法を開発した。
この結果から,ディープラーニングアプローチは時間的ダイナミクスを捉える上で極めて効率的であることが示唆された。
論文 参考訳(メタデータ) (2022-11-23T17:42:53Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Heteroscedastic Uncertainty for Robust Generative Latent Dynamics [7.107159120605662]
本稿では,潜在状態表現と関連するダイナミクスを協調的に学習する手法を提案する。
我々の主な貢献として、我々の表現がヘテロスセダスティックあるいは入力固有の不確実性の概念を捉えることができるかを説明します。
画像に基づく2つのタスクの予測と制御実験の結果を示す。
論文 参考訳(メタデータ) (2020-08-18T21:04:33Z) - Wave Propagation of Visual Stimuli in Focus of Attention [77.4747032928547]
周囲の視覚環境の変化に対する迅速な反応は、計算資源を視覚領域の最も関連する場所に再配置する効率的な注意機構を必要とする。
本研究は, 営巣動物が提示する有効性と効率性を示す, 生物学的に有望な注目焦点モデルを提案する。
論文 参考訳(メタデータ) (2020-06-19T09:33:21Z) - A Meta-Bayesian Model of Intentional Visual Search [0.0]
本稿では,分類的知覚とササード計画の根底にある神経機構のベイズ的解釈を取り入れたビジュアルサーチの計算モデルを提案する。
擬似行動と人的行動の有意義な比較を可能にするため、参加者は視線に追従する窓から隠蔽されたMNIST桁を分類する必要がある。
本モデルは,観察された人間の行動から主観的パラメータを回収し,高い解釈可能性を維持しながら,分類精度などの人間の行動指標を再カプセル化することができる。
論文 参考訳(メタデータ) (2020-06-05T16:10:35Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z) - Unsupervised Gaze Prediction in Egocentric Videos by Energy-based
Surprise Modeling [6.294759639481189]
エゴセントリックな認識は、没入型コンピューティングデバイスの出現によって急速に成長してきた。
人間の視線予測は、自我中心の動画を分析する上で重要な問題である。
我々は,エゴセントリックな視線予測タスクにおいて,教師付き深層学習モデルの一般化能力を定量的に分析する。
論文 参考訳(メタデータ) (2020-01-30T21:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。