論文の概要: Predicting Human Attention using Computational Attention
- arxiv url: http://arxiv.org/abs/2303.09383v2
- Date: Tue, 4 Apr 2023 15:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 17:41:06.475813
- Title: Predicting Human Attention using Computational Attention
- Title(参考訳): 計算的注意を用いた人間の注意予測
- Authors: Zhibo Yang, Sounak Mondal, Seoyoung Ahn, Gregory Zelinsky, Minh Hoai,
Dimitris Samaras
- Abstract要約: 本研究では,注意制御の両形態を予測する単一モデルであるヒューマン・アテンション・トランスフォーマー(HAT)を提案する。
HATは、目標現在および目標存在時における固定のスキャンパスを予測し、タスクレス自由視聴固定のスキャンパスの予測においてSOTAと一致または超過する新しい最先端(SOTA)である。
- 参考スコア(独自算出の注目度): 44.10971508325032
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most models of visual attention are aimed at predicting either top-down or
bottom-up control, as studied using different visual search and free-viewing
tasks. We propose Human Attention Transformer (HAT), a single model predicting
both forms of attention control. HAT is the new state-of-the-art (SOTA) in
predicting the scanpath of fixations made during target-present and
target-absent search, and matches or exceeds SOTA in the prediction of taskless
free-viewing fixation scanpaths. HAT achieves this new SOTA by using a novel
transformer-based architecture and a simplified foveated retina that
collectively create a spatio-temporal awareness akin to the dynamic visual
working memory of humans. Unlike previous methods that rely on a coarse grid of
fixation cells and experience information loss due to fixation discretization,
HAT features a dense-prediction architecture and outputs a dense heatmap for
each fixation, thus avoiding discretizing fixations. HAT sets a new standard in
computational attention, which emphasizes both effectiveness and generality.
HAT's demonstrated scope and applicability will likely inspire the development
of new attention models that can better predict human behavior in various
attention-demanding scenarios.
- Abstract(参考訳): 視覚的注意のほとんどのモデルは、異なる視覚的検索と自由視聴タスクを用いて、トップダウンまたはボトムアップの制御を予測することを目的としている。
注意制御の両形態を予測する単一モデルであるヒューマンアテンショントランスフォーマ(hat)を提案する。
HATは、目標現在および目標存在探索中の固定のスキャンパスを予測するための新しい最先端(SOTA)であり、タスクレスな自由視聴固定のスキャンパスの予測においてSOTAと一致または上回っている。
この新しいsotaは、新しいトランスフォーマーベースのアーキテクチャと、人間のダイナミックな視覚ワーキングメモリに似た時空間認識を集合的に生成する簡易なフォベテッド網膜を使用することで実現されている。
固定セルの粗いグリッドと固定の離散化による情報損失を経験する従来の方法とは異なり、HATは密度の高い予測アーキテクチャを備え、各固定に対する密度の高いヒートマップを出力する。
HATは、有効性と汎用性の両方を強調する、計算的注意の新たな標準を定めている。
HATの実証されたスコープと適用性は、様々な注意を要するシナリオにおいて、人間の振る舞いをより正確に予測できる新しい注意モデルの開発を促すだろう。
関連論文リスト
- VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Cost-effective Interactive Attention Learning with Neural Attention
Processes [79.8115563067513]
対話型注意学習(Interactive Attention Learning, IAL)と呼ばれる対話型学習フレームワークを提案する。
IALは、人間のアノテーションが不足しているため、過度に適合する傾向がある。
我々は,サンプル効率のよい注意機構と,コスト効率のよいインスタンスと機能の再ランクアルゴリズムを提案することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2020-06-09T17:36:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。