Fugu-MT 論文翻訳(概要): Improving saliency models' predictions of the next fixation with humans' intrinsic cost of gaze shifts

論文の概要: Improving saliency models' predictions of the next fixation with humans' intrinsic cost of gaze shifts

arxiv url: http://arxiv.org/abs/2207.04250v1
Date: Sat, 9 Jul 2022 11:21:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-12 14:27:43.689347
Title: Improving saliency models' predictions of the next fixation with humans' intrinsic cost of gaze shifts
Title（参考訳）: 視線シフトの本質的なコストによる健康モデルによる次の固定の予測の改善
Authors: Florian Kadner, Tobias Thomas, David Hoppe and Constantin A. Rothkopf
Abstract要約: 我々は,次の視線目標を予測し,視線に対する人的コストを実証的に測定するための原則的枠組みを開発する。我々は、人間の視線嗜好の実装を提供する。これは、人間の次の視線目標に対する任意の正当性モデルの予測を改善するために使用できる。
参考スコア（独自算出の注目度）: 5.610776362077493
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The human prioritization of image regions can be modeled in a time invariant fashion with saliency maps or sequentially with scanpath models. However, while both types of models have steadily improved on several benchmarks and datasets, there is still a considerable gap in predicting human gaze. Here, we leverage two recent developments to reduce this gap: theoretical analyses establishing a principled framework for predicting the next gaze target and the empirical measurement of the human cost for gaze switches independently of image content. We introduce an algorithm in the framework of sequential decision making, which converts any static saliency map into a sequence of dynamic history-dependent value maps, which are recomputed after each gaze shift. These maps are based on 1) a saliency map provided by an arbitrary saliency model, 2) the recently measured human cost function quantifying preferences in magnitude and direction of eye movements, and 3) a sequential exploration bonus, which changes with each subsequent gaze shift. The parameters of the spatial extent and temporal decay of this exploration bonus are estimated from human gaze data. The relative contributions of these three components were optimized on the MIT1003 dataset for the NSS score and are sufficient to significantly outperform predictions of the next gaze target on NSS and AUC scores for five state of the art saliency models on three image data sets. Thus, we provide an implementation of human gaze preferences, which can be used to improve arbitrary saliency models' predictions of humans' next gaze targets.
Abstract（参考訳）: 画像領域の人間の優先順位付けは、サリエンシマップやスキャンパスモデルを用いて時間不変の方法でモデル化することができる。しかしながら、どちらのモデルもいくつかのベンチマークやデータセットで着実に改善されているものの、人間の視線を予測するには大きなギャップがある。本稿では,このギャップを減らすために,次の視線目標を予測するための原則的枠組みを確立する理論的解析と,視線スイッチの人的コストを画像の内容とは無関係に実証的に測定する。本稿では,任意の静的サリエンシマップを動的履歴依存値マップの列に変換し,視線シフト後に再計算する逐次決定の枠組みにアルゴリズムを導入する。これらの地図は、 1) 任意の給与モデルによって提供される給与マップ。 2)最近測定された人的コスト関数は、眼球運動の大きさと方向の嗜好を定量化し、 3) 逐次的探索ボーナスは,その後の視線シフト毎に変化する。この探索ボーナスの空間的範囲と時間的減衰のパラメータは、人間の視線データから推定される。これら3つのコンポーネントの相対的な貢献は、nssスコアのmit1003データセットに最適化されており、3つの画像データセット上の5つの状態のアートサリエンシーモデルに対して、nssとaucスコアの次の視線目標の予測を著しく上回るほどである。そこで我々は、人間の視線嗜好の実装を行い、人間の次の視線目標に対する任意の正当性モデルの予測を改善するために使用できる。

関連論文リスト

An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文参考訳（メタデータ） (2024-12-18T12:10:33Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
Spatio-Temporal Attention and Gaussian Processes for Personalized Video Gaze Estimation [7.545077734926115]
本稿では,ビデオからの視線推定を目的とした,シンプルで斬新なディープラーニングモデルを提案する。本手法では,ビデオ内の空間的ダイナミクスを追跡する空間的注意機構を用いる。実験の結果,提案手法の有効性を確認し,データセット内設定とデータセット間設定の両方でその成功を実証した。
論文参考訳（メタデータ） (2024-04-08T06:07:32Z)
TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。私たちのコードはGitHubで公開されます。
論文参考訳（メタデータ） (2023-01-05T22:10:16Z)
A generic diffusion-based approach for 3D human pose prediction in the wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文参考訳（メタデータ） (2022-10-11T17:59:54Z)
Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。提案手法は,同数の視線シフトに対してF1スコアを2～3ポイント増加させる。
論文参考訳（メタデータ） (2022-08-24T14:59:28Z)
Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。 LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文参考訳（メタデータ） (2022-05-12T17:55:51Z)
L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文参考訳（メタデータ） (2022-03-07T12:35:39Z)
An Adversarial Human Pose Estimation Network Injected with Graph Structure [75.08618278188209]
本稿では,いくつかの関節が見えない場合に,可視関節の局所化精度を向上させるために,新しいGAN(Generative Adversarial Network)を設計する。ネットワークは、2つのシンプルで効率的なモジュール、カスケード機能ネットワーク(CFN)とグラフ構造ネットワーク(GSN)で構成されています。
論文参考訳（メタデータ） (2021-03-29T12:07:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。