論文の概要: Improving saliency models' predictions of the next fixation with humans'
intrinsic cost of gaze shifts
- arxiv url: http://arxiv.org/abs/2207.04250v1
- Date: Sat, 9 Jul 2022 11:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:27:43.689347
- Title: Improving saliency models' predictions of the next fixation with humans'
intrinsic cost of gaze shifts
- Title(参考訳): 視線シフトの本質的なコストによる健康モデルによる次の固定の予測の改善
- Authors: Florian Kadner, Tobias Thomas, David Hoppe and Constantin A. Rothkopf
- Abstract要約: 我々は,次の視線目標を予測し,視線に対する人的コストを実証的に測定するための原則的枠組みを開発する。
我々は、人間の視線嗜好の実装を提供する。これは、人間の次の視線目標に対する任意の正当性モデルの予測を改善するために使用できる。
- 参考スコア(独自算出の注目度): 5.610776362077493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The human prioritization of image regions can be modeled in a time invariant
fashion with saliency maps or sequentially with scanpath models. However, while
both types of models have steadily improved on several benchmarks and datasets,
there is still a considerable gap in predicting human gaze. Here, we leverage
two recent developments to reduce this gap: theoretical analyses establishing a
principled framework for predicting the next gaze target and the empirical
measurement of the human cost for gaze switches independently of image content.
We introduce an algorithm in the framework of sequential decision making, which
converts any static saliency map into a sequence of dynamic history-dependent
value maps, which are recomputed after each gaze shift. These maps are based on
1) a saliency map provided by an arbitrary saliency model, 2) the recently
measured human cost function quantifying preferences in magnitude and direction
of eye movements, and 3) a sequential exploration bonus, which changes with
each subsequent gaze shift. The parameters of the spatial extent and temporal
decay of this exploration bonus are estimated from human gaze data. The
relative contributions of these three components were optimized on the MIT1003
dataset for the NSS score and are sufficient to significantly outperform
predictions of the next gaze target on NSS and AUC scores for five state of the
art saliency models on three image data sets. Thus, we provide an
implementation of human gaze preferences, which can be used to improve
arbitrary saliency models' predictions of humans' next gaze targets.
- Abstract(参考訳): 画像領域の人間の優先順位付けは、サリエンシマップやスキャンパスモデルを用いて時間不変の方法でモデル化することができる。
しかしながら、どちらのモデルもいくつかのベンチマークやデータセットで着実に改善されているものの、人間の視線を予測するには大きなギャップがある。
本稿では,このギャップを減らすために,次の視線目標を予測するための原則的枠組みを確立する理論的解析と,視線スイッチの人的コストを画像の内容とは無関係に実証的に測定する。
本稿では,任意の静的サリエンシマップを動的履歴依存値マップの列に変換し,視線シフト後に再計算する逐次決定の枠組みにアルゴリズムを導入する。
これらの地図は、
1) 任意の給与モデルによって提供される給与マップ。
2)最近測定された人的コスト関数は、眼球運動の大きさと方向の嗜好を定量化し、
3) 逐次的探索ボーナスは,その後の視線シフト毎に変化する。
この探索ボーナスの空間的範囲と時間的減衰のパラメータは、人間の視線データから推定される。
これら3つのコンポーネントの相対的な貢献は、nssスコアのmit1003データセットに最適化されており、3つの画像データセット上の5つの状態のアートサリエンシーモデルに対して、nssとaucスコアの次の視線目標の予測を著しく上回るほどである。
そこで我々は、人間の視線嗜好の実装を行い、人間の次の視線目標に対する任意の正当性モデルの予測を改善するために使用できる。
関連論文リスト
- DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [56.22339016797785]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - An Adversarial Human Pose Estimation Network Injected with Graph
Structure [75.08618278188209]
本稿では,いくつかの関節が見えない場合に,可視関節の局所化精度を向上させるために,新しいGAN(Generative Adversarial Network)を設計する。
ネットワークは、2つのシンプルで効率的なモジュール、カスケード機能ネットワーク(CFN)とグラフ構造ネットワーク(GSN)で構成されています。
論文 参考訳(メタデータ) (2021-03-29T12:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。