Fugu-MT 論文翻訳(概要): Predicting Human Attention using Computational Attention

論文の概要: Predicting Human Attention using Computational Attention

arxiv url: http://arxiv.org/abs/2303.09383v2
Date: Tue, 4 Apr 2023 15:02:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-05 17:41:06.475813
Title: Predicting Human Attention using Computational Attention
Title（参考訳）: 計算的注意を用いた人間の注意予測
Authors: Zhibo Yang, Sounak Mondal, Seoyoung Ahn, Gregory Zelinsky, Minh Hoai, Dimitris Samaras
Abstract要約: 本研究では,注意制御の両形態を予測する単一モデルであるヒューマン・アテンション・トランスフォーマー(HAT)を提案する。 HATは、目標現在および目標存在時における固定のスキャンパスを予測し、タスクレス自由視聴固定のスキャンパスの予測においてSOTAと一致または超過する新しい最先端(SOTA)である。
参考スコア（独自算出の注目度）: 44.10971508325032
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Most models of visual attention are aimed at predicting either top-down or bottom-up control, as studied using different visual search and free-viewing tasks. We propose Human Attention Transformer (HAT), a single model predicting both forms of attention control. HAT is the new state-of-the-art (SOTA) in predicting the scanpath of fixations made during target-present and target-absent search, and matches or exceeds SOTA in the prediction of taskless free-viewing fixation scanpaths. HAT achieves this new SOTA by using a novel transformer-based architecture and a simplified foveated retina that collectively create a spatio-temporal awareness akin to the dynamic visual working memory of humans. Unlike previous methods that rely on a coarse grid of fixation cells and experience information loss due to fixation discretization, HAT features a dense-prediction architecture and outputs a dense heatmap for each fixation, thus avoiding discretizing fixations. HAT sets a new standard in computational attention, which emphasizes both effectiveness and generality. HAT's demonstrated scope and applicability will likely inspire the development of new attention models that can better predict human behavior in various attention-demanding scenarios.
Abstract（参考訳）: 視覚的注意のほとんどのモデルは、異なる視覚的検索と自由視聴タスクを用いて、トップダウンまたはボトムアップの制御を予測することを目的としている。注意制御の両形態を予測する単一モデルであるヒューマンアテンショントランスフォーマ(hat)を提案する。 HATは、目標現在および目標存在探索中の固定のスキャンパスを予測するための新しい最先端(SOTA)であり、タスクレスな自由視聴固定のスキャンパスの予測においてSOTAと一致または上回っている。この新しいsotaは、新しいトランスフォーマーベースのアーキテクチャと、人間のダイナミックな視覚ワーキングメモリに似た時空間認識を集合的に生成する簡易なフォベテッド網膜を使用することで実現されている。固定セルの粗いグリッドと固定の離散化による情報損失を経験する従来の方法とは異なり、HATは密度の高い予測アーキテクチャを備え、各固定に対する密度の高いヒートマップを出力する。 HATは、有効性と汎用性の両方を強調する、計算的注意の新たな標準を定めている。 HATの実証されたスコープと適用性は、様々な注意を要するシナリオにおいて、人間の振る舞いをより正確に予測できる新しい注意モデルの開発を促すだろう。

関連論文リスト

Modeling Human Gaze Behavior with Diffusion Models for Unified Scanpath Prediction [66.71402249062777]
ScanDiffは、拡散モデルと視覚変換器を組み合わせることで、多種多様な現実的なスキャンパスを生成する新しいアーキテクチャである。本手法は,拡散モデルの性質を活用してスキャンパス変動を明示的にモデル化し,多種多様な視線軌道を生成する。ベンチマークデータセットの実験によると、ScanDiffは、フリービューとタスク駆動のシナリオの両方で最先端のメソッドを上回っている。
論文参考訳（メタデータ） (2025-07-30T18:36:09Z)
Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2025-07-24T15:19:23Z)
Reimagination with Test-time Observation Interventions: Distractor-Robust World Model Predictions for Visual Model Predictive Control [51.14656121641822]
世界モデルは、現在の観測と計画された行動によって、ロボットが将来の観察を「想像」することができる。新たな視覚的障害は、行動結果の予測を破損させ、ロボットが計画や行動検証のために世界モデルの想像力に依存するとき、下流の障害を引き起こす可能性がある。本稿では、世界モデルによるより信頼性の高い行動結果の予測を可能にする簡易かつ効果的なテストタイム戦略であるReOI(Reimagination with Observation Intervention)を提案する。
論文参考訳（メタデータ） (2025-06-19T19:41:29Z)
Gaze-Guided Learning: Avoiding Shortcut Bias in Visual Classification [3.1208151315473622]
本稿では,人間の視線時系列データセットであるGaze-CIFAR-10と2列視線エンコーダを紹介する。並行して、視覚変換器(ViT)を用いて画像内容のシーケンシャルな表現を学習する。画像特徴表現における不正確な局所化を効果的に補正する。
論文参考訳（メタデータ） (2025-04-08T00:40:46Z)
Look Hear: Gaze Prediction for Speech-directed Human Attention [49.81718760025951]
本研究は、人物が画像を見て、参照表現を聴いているときの注意の漸進的な予測に焦点を当てた。我々は,参照表現において各単語が引き起こす人間の定着を予測できるリファラルトランスフォーマーモデル(ART)を開発した。定量的および定性的な分析では、ARTはスキャンパス予測の既存の手法よりも優れているだけでなく、いくつかの人間の注意パターンを捉えているように見える。
論文参考訳（メタデータ） (2024-07-28T22:35:08Z)
Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文参考訳（メタデータ） (2024-04-17T11:55:45Z)
Visual Point Cloud Forecasting enables Scalable Autonomous Driving [28.376086570498952]
視覚的自律運転アプリケーションは、セマンティクス、三次元幾何学、時間情報を同時に含む機能を必要とする。我々は、下流のビジュアルエンコーダを事前訓練するための一般的なモデルViDARを提案する。実験の結果、例えば3D検出における3.1%のNDS、モーション予測における10%のエラー削減、計画における衝突率15%の削減といった下流タスクが顕著に向上した。
論文参考訳（メタデータ） (2023-12-29T15:44:13Z)
VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-08T06:49:54Z)
Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文参考訳（メタデータ） (2023-03-23T05:17:05Z)
Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文参考訳（メタデータ） (2022-06-15T03:44:42Z)
A Framework for Multisensory Foresight for Embodied Agents [11.351546861334292]
将来の感覚状態を予測することは、ロボット、ドローン、自動運転車などの学習エージェントにとって不可欠である。本稿では,複数の感覚モーダルを探索行動と組み合わせ,この問題に対処するための予測ニューラルネットワークアーキテクチャを提案する。このフレームワークは、大規模なオブジェクトに対して9つの動作を複数回実行するヒューマノイドロボット上で、4つの感覚モーダル(ビジョン、触覚、オーディオ、触覚)を含むデータセットでテストされ、検証された。
論文参考訳（メタデータ） (2021-09-15T20:20:04Z)
TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文参考訳（メタデータ） (2021-04-08T20:01:00Z)
SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-25T14:13:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。