論文の概要: Gazeformer: Scalable, Effective and Fast Prediction of Goal-Directed
Human Attention
- arxiv url: http://arxiv.org/abs/2303.15274v3
- Date: Sun, 2 Jul 2023 22:52:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 14:03:06.151443
- Title: Gazeformer: Scalable, Effective and Fast Prediction of Goal-Directed
Human Attention
- Title(参考訳): Gazeformer: 目標指向の人間意識のスケーラブルで効果的で高速な予測
- Authors: Sounak Mondal, Zhibo Yang, Seoyoung Ahn, Dimitris Samaras, Gregory
Zelinsky, Minh Hoai
- Abstract要約: 我々は、これまで研究されなかった物体の視線を予測できるゼロショット学習のための新しいモデルを開発した。
Gazeformerは自然言語モデルを使ってターゲットを符号化し、スキャンパス予測における意味的類似性を活用する。
また、目標現在および目標存在探索タスクの標準視線予測において、既存の目標検出モデルよりも優れている。
- 参考スコア(独自算出の注目度): 44.10971508325032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting human gaze is important in Human-Computer Interaction (HCI).
However, to practically serve HCI applications, gaze prediction models must be
scalable, fast, and accurate in their spatial and temporal gaze predictions.
Recent scanpath prediction models focus on goal-directed attention (search).
Such models are limited in their application due to a common approach relying
on trained target detectors for all possible objects, and the availability of
human gaze data for their training (both not scalable). In response, we pose a
new task called ZeroGaze, a new variant of zero-shot learning where gaze is
predicted for never-before-searched objects, and we develop a novel model,
Gazeformer, to solve the ZeroGaze problem. In contrast to existing methods
using object detector modules, Gazeformer encodes the target using a natural
language model, thus leveraging semantic similarities in scanpath prediction.
We use a transformer-based encoder-decoder architecture because transformers
are particularly useful for generating contextual representations. Gazeformer
surpasses other models by a large margin on the ZeroGaze setting. It also
outperforms existing target-detection models on standard gaze prediction for
both target-present and target-absent search tasks. In addition to its improved
performance, Gazeformer is more than five times faster than the
state-of-the-art target-present visual search model.
- Abstract(参考訳): HCI(Human-Computer Interaction)では、人間の視線を予測することが重要である。
しかし、実際にHCIアプリケーションに役立てるためには、視線予測モデルは空間的および時間的視線予測においてスケーラブルで高速で正確でなければならない。
最近のスキャンパス予測モデルは目標指向の注意に焦点を当てている(研究)。
このようなモデルは、すべての可能な対象に対して訓練されたターゲット検出器に依存する共通のアプローチと、トレーニングのための人間の視線データ(どちらもスケーラブルではない)が利用できるため、アプリケーション内で制限される。
これに対し,ZeroGazeと呼ばれるゼロショット学習という新たなタスクを,前例のない対象に対して視線を予測し,新たなモデルであるGazeformerを開発し,ZeroGaze問題を解く。
オブジェクト検出器モジュールを使用する既存の方法とは対照的に、gazeformerはターゲットを自然言語モデルでエンコードし、スキャンパス予測で意味的類似性を利用する。
変換器は文脈表現を生成するのに特に有用であるため,変換器ベースのエンコーダデコーダアーキテクチャを用いる。
gazeformerはzerogaze設定で他のモデルを大きく上回っている。
また、目標現在および目標存在探索タスクの標準視線予測において、既存の目標検出モデルよりも優れている。
パフォーマンスの改善に加えて、Gazeformerは最先端のターゲット表示型ビジュアルサーチモデルよりも5倍以上高速である。
関連論文リスト
- Stanceformer: Target-Aware Transformer for Stance Detection [59.69858080492586]
スタンス検出は、テキストで表現されたスタンスを特定の主題やターゲットに向けて識別する。
以前の作業は、ターゲットを効果的に優先順位付けする能力に欠ける既存のトランスフォーマーモデルに依存していた。
本稿では,学習と推論の両方において,目標に対する注意を高めるターゲット対応トランスフォーマーモデルであるStanceformerを紹介する。
論文 参考訳(メタデータ) (2024-10-09T17:24:28Z) - CrossGaze: A Strong Method for 3D Gaze Estimation in the Wild [4.089889918897877]
我々は、視線推定のための強力なベースラインであるCrossGazeを提案する。
我々のモデルはいくつかの最先端手法を超え、平均角誤差は9.94度である。
提案手法は,視線推定における将来の研究開発の基盤となる。
論文 参考訳(メタデータ) (2024-02-13T09:20:26Z) - Human motion trajectory prediction using the Social Force Model for
real-time and low computational cost applications [3.5970055082749655]
新たな軌道予測モデルSoFGAN(Social Force Generative Adversarial Network)を提案する。
SoFGANは、GAN(Generative Adversarial Network)と社会力モデル(Social Force Model, SFM)を使用して、シーン内の衝突を減らす様々な可塑性人軌道を生成する。
提案手法は,現在の最先端モデルよりも UCY や BIWI データセットの方が精度が高く,他の手法と比較して衝突を低減できることを示す。
論文 参考訳(メタデータ) (2023-11-17T15:32:21Z) - Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers [40.27531644565077]
本研究では,注意制御の両形態を予測する単一モデルであるヒューマン・アテンション・トランスフォーマー(HAT)を提案する。
HATは、有効性、一般性、解釈可能性を強調する、計算的注意の新たな標準を定めている。
論文 参考訳(メタデータ) (2023-03-16T15:13:09Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - 3DGazeNet: Generalizing Gaze Estimation with Weak-Supervision from
Synthetic Views [67.00931529296788]
本稿では,適応を伴わない新しい環境に直接適用可能な一般的な視線推定モデルを訓練することを提案する。
視覚的擬似アノテーションを用いた多彩な顔の大規模データセットを作成し、シーンの3次元形状に基づいて抽出する。
本研究では,本手法を視線一般化タスクにおいて検証し,真理データが得られない場合の最先端技術と比較して最大30%の改善を実証する。
論文 参考訳(メタデータ) (2022-12-06T14:15:17Z) - End-to-End Human-Gaze-Target Detection with Transformers [57.00864538284686]
本稿では,Human-Gaze-Target(HGT)検出のための効果的かつ効率的な手法を提案する。
提案手法は,Human-Gaze-Target Detection TRansformer (HGTTR) と名付けられ,HGT検出パイプラインを簡素化する。
提案手法の有効性とロバスト性は,GazeFollowing と VideoAttentionTarget の2つの標準ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T02:37:06Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。