論文の概要: Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers
- arxiv url: http://arxiv.org/abs/2303.09383v3
- Date: Sat, 30 Mar 2024 18:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 16:04:03.528068
- Title: Unifying Top-down and Bottom-up Scanpath Prediction Using Transformers
- Title(参考訳): 変圧器を用いたトップダウンとボトムアップの走査パス予測の統一
- Authors: Zhibo Yang, Sounak Mondal, Seoyoung Ahn, Ruoyu Xue, Gregory Zelinsky, Minh Hoai, Dimitris Samaras,
- Abstract要約: 本研究では,注意制御の両形態を予測する単一モデルであるヒューマン・アテンション・トランスフォーマー(HAT)を提案する。
HATは、有効性、一般性、解釈可能性を強調する、計算的注意の新たな標準を定めている。
- 参考スコア(独自算出の注目度): 40.27531644565077
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Most models of visual attention aim at predicting either top-down or bottom-up control, as studied using different visual search and free-viewing tasks. In this paper we propose the Human Attention Transformer (HAT), a single model that predicts both forms of attention control. HAT uses a novel transformer-based architecture and a simplified foveated retina that collectively create a spatio-temporal awareness akin to the dynamic visual working memory of humans. HAT not only establishes a new state-of-the-art in predicting the scanpath of fixations made during target-present and target-absent visual search and ``taskless'' free viewing, but also makes human gaze behavior interpretable. Unlike previous methods that rely on a coarse grid of fixation cells and experience information loss due to fixation discretization, HAT features a sequential dense prediction architecture and outputs a dense heatmap for each fixation, thus avoiding discretizing fixations. HAT sets a new standard in computational attention, which emphasizes effectiveness, generality, and interpretability. HAT's demonstrated scope and applicability will likely inspire the development of new attention models that can better predict human behavior in various attention-demanding scenarios. Code is available at https://github.com/cvlab-stonybrook/HAT.
- Abstract(参考訳): 視覚的注意のほとんどのモデルは、異なる視覚的検索と自由視聴タスクを用いて、トップダウンまたはボトムアップの制御を予測することを目的としている。
本稿では,注意制御の両形態を予測する単一モデルであるヒューマンアテンショントランスフォーマー(HAT)を提案する。
HATは、新しいトランスフォーマーベースのアーキテクチャと、人間の動的視覚的ワーキングメモリに似た時空間的認識を集合的に生み出す、単純化された葉状網膜を使用している。
HATは、目標現在および目標被写体探索における固定の走査パスを予測し、自由な視線を観察するだけでなく、人間の視線行動の解釈を可能にする新しい最先端技術を確立している。
固定セルの粗いグリッドと固定の離散化による情報損失を経験する従来の方法とは異なり、HATは逐次的に密集した予測アーキテクチャを備え、各固定に対する密集したヒートマップを出力する。
HATは、有効性、一般性、解釈可能性を強調する、計算的注意の新たな標準を定めている。
HATの実証されたスコープと適用性は、様々な注意を必要とするシナリオにおける人間の振る舞いをより正確に予測できる新しい注意モデルの開発を刺激する可能性が高い。
コードはhttps://github.com/cvlab-stonybrook/HAT.comで入手できる。
関連論文リスト
- Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Visual Point Cloud Forecasting enables Scalable Autonomous Driving [28.376086570498952]
視覚的自律運転アプリケーションは、セマンティクス、三次元幾何学、時間情報を同時に含む機能を必要とする。
我々は、下流のビジュアルエンコーダを事前訓練するための一般的なモデルViDARを提案する。
実験の結果、例えば3D検出における3.1%のNDS、モーション予測における10%のエラー削減、計画における衝突率15%の削減といった下流タスクが顕著に向上した。
論文 参考訳(メタデータ) (2023-12-29T15:44:13Z) - Layout Sequence Prediction From Noisy Mobile Modality [53.49649231056857]
軌道予測は、自律運転やロボット工学などの応用における歩行者運動を理解する上で重要な役割を担っている。
現在の軌道予測モデルは、視覚的モダリティからの長い、完全な、正確に観察されたシーケンスに依存する。
本稿では,物体の障害物や視界外を,完全に視認できる軌跡を持つものと同等に扱う新しいアプローチであるLTrajDiffを提案する。
論文 参考訳(メタデータ) (2023-10-09T20:32:49Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - Contrastive Language-Image Pretrained Models are Zero-Shot Human
Scanpath Predictors [2.524526956420465]
CapMIT1003は、キャプションタスク中に収集されたキャプションとクリックコンテンツ画像のデータベースである。
NevaClipは、視覚スキャンパスを予測する新しいゼロショット手法である。
論文 参考訳(メタデータ) (2023-05-21T07:24:50Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - A Framework for Multisensory Foresight for Embodied Agents [11.351546861334292]
将来の感覚状態を予測することは、ロボット、ドローン、自動運転車などの学習エージェントにとって不可欠である。
本稿では,複数の感覚モーダルを探索行動と組み合わせ,この問題に対処するための予測ニューラルネットワークアーキテクチャを提案する。
このフレームワークは、大規模なオブジェクトに対して9つの動作を複数回実行するヒューマノイドロボット上で、4つの感覚モーダル(ビジョン、触覚、オーディオ、触覚)を含むデータセットでテストされ、検証された。
論文 参考訳(メタデータ) (2021-09-15T20:20:04Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。