論文の概要: SIGN: A Statistically-Informed Gaze Network for Gaze Time Prediction
- arxiv url: http://arxiv.org/abs/2501.17422v1
- Date: Wed, 29 Jan 2025 05:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:53:25.808234
- Title: SIGN: A Statistically-Informed Gaze Network for Gaze Time Prediction
- Title(参考訳): SIGN: 視線時間予測のための統計的に変形した視線ネットワーク
- Authors: Jianping Ye, Michel Wedel,
- Abstract要約: 我々は,画像上の集合視時間を予測するため,統計的にインフォームドされたガゼネットワークであるSIGNの最初のバージョンを提案する。
我々は,CNNとVisual Transformerを含むディープラーニング実装を開発し,視線時間全体の予測を可能にする。
SIGNは2つのデータセットの最先端ディープラーニングベンチマークよりも、視線時間予測を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We propose a first version of SIGN, a Statistically-Informed Gaze Network, to predict aggregate gaze times on images. We develop a foundational statistical model for which we derive a deep learning implementation involving CNNs and Visual Transformers, which enables the prediction of overall gaze times. The model enables us to derive from the aggregate gaze times the underlying gaze pattern as a probability map over all regions in the image, where each region's probability represents the likelihood of being gazed at across all possible scan-paths. We test SIGN's performance on AdGaze3500, a dataset of images of ads with aggregate gaze times, and on COCO-Search18, a dataset with individual-level fixation patterns collected during search. We demonstrate that SIGN (1) improves gaze duration prediction significantly over state-of-the-art deep learning benchmarks on both datasets, and (2) can deliver plausible gaze patterns that correspond to empirical fixation patterns in COCO-Search18. These results suggest that the first version of SIGN holds promise for gaze-time predictions and deserves further development.
- Abstract(参考訳): 我々は,画像上の集合視時間を予測するため,統計的にインフォームドされたガゼネットワークであるSIGNの最初のバージョンを提案する。
我々は,CNNとビジュアルトランスフォーマーを含むディープラーニングの実装を導出する基礎的統計モデルを構築し,視線時間全体の予測を可能にする。
このモデルにより、画像中の全領域の確率マップとして、下層の視線パターンを集約した視線時間から導出することが可能となり、各領域の確率は、すべてのスキャンパスで視線される可能性を表す。
我々は,AdGaze3500においてSIGNのパフォーマンスを,集約された視線時間を持つ広告のデータセットであるAdGaze3500と,検索中に個々のレベルの固定パターンを収集したデータセットであるCOCO-Search18で検証した。
その結果,SIGN(1)は両データセットの最先端ディープラーニングベンチマークよりも視線持続時間予測を著しく改善し,(2)COCO-Search18における経験的固定パターンに対応する可視な視線パターンを提供できることを示した。
これらの結果は、SIGNの最初のバージョンは視線時間の予測を約束しており、さらなる発展に値することを示唆している。
関連論文リスト
- A Survey of Deep Graph Learning under Distribution Shifts: from Graph Out-of-Distribution Generalization to Adaptation [59.14165404728197]
我々は,分散シフト下での深層グラフ学習について,最新かつ先見的なレビューを行う。
具体的には,グラフ OOD 一般化,トレーニング時グラフ OOD 適応,テスト時グラフ OOD 適応の3つのシナリオについて述べる。
文献の理解を深めるために,提案した分類に基づく既存モデルを体系的に分類した。
論文 参考訳(メタデータ) (2024-10-25T02:39:56Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - Patch-level Gaze Distribution Prediction for Gaze Following [49.93340533068501]
トレーニング後の視線に対するパッチ分布予測(PDP)手法を提案する。
本モデルでは,アノテーションの差が大きい画像上でのより優れたヒートマップ分布を予測することにより,MSE損失の正則化を図っている。
実験により,ターゲット予測とイン/アウト予測サブタスクのギャップを埋めるモデルが得られた。
論文 参考訳(メタデータ) (2022-11-20T19:25:15Z) - Improving saliency models' predictions of the next fixation with humans'
intrinsic cost of gaze shifts [6.315366433343492]
我々は,次の視線目標を予測し,視線に対する人的コストを実証的に測定するための原則的枠組みを開発する。
我々は、人間の視線嗜好の実装を提供する。これは、人間の次の視線目標に対する任意の正当性モデルの予測を改善するために使用できる。
論文 参考訳(メタデータ) (2022-07-09T11:21:13Z) - Evidential Temporal-aware Graph-based Social Event Detection via
Dempster-Shafer Theory [76.4580340399321]
ETGNN(Evidential Temporal-aware Graph Neural Network)を提案する。
ノードがテキストであり、エッジがそれぞれ複数の共有要素によって決定されるビュー固有グラフを構築する。
ビュー固有の不確実性を考慮すると、すべてのビューの表現は、明らかなディープラーニング(EDL)ニューラルネットワークを介してマス関数に変換される。
論文 参考訳(メタデータ) (2022-05-24T16:22:40Z) - GazeOnce: Real-Time Multi-Person Gaze Estimation [18.16091280655655]
外観に基づく視線推定は、単一の画像から3次元視線方向を予測することを目的としている。
近年の深層学習に基づくアプローチは優れた性能を示すが,複数対人視線をリアルタイムに出力することはできない。
画像中の複数の顔に対する視線方向を同時に予測できるGazeOnceを提案する。
論文 参考訳(メタデータ) (2022-04-20T14:21:47Z) - Joint Forecasting of Panoptic Segmentations with Difference Attention [72.03470153917189]
シーン内の全てのオブジェクトを共同で予測する新しいパノプティックセグメンテーション予測モデルについて検討する。
提案したモデルをCityscapesとAIODriveデータセット上で評価する。
論文 参考訳(メタデータ) (2022-04-14T17:59:32Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - 360-Degree Gaze Estimation in the Wild Using Multiple Zoom Scales [26.36068336169795]
焦点を絞った表情から視線を推定する能力を模倣するモデルを開発した。
このモデルは、クリアアイパッチを抽出する必要がない。
モデルを拡張して、360度視線推定の課題に対処する。
論文 参考訳(メタデータ) (2020-09-15T08:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。