論文の概要: OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction
- arxiv url: http://arxiv.org/abs/2407.13335v1
- Date: Thu, 18 Jul 2024 09:33:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 16:00:23.948663
- Title: OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction
- Title(参考訳): OAT: Gaze Scanpath 予測のためのオブジェクトレベルアテンション変換器
- Authors: Yini Fang, Jingling Yu, Haozheng Zhang, Ralf van der Lans, Bertram Shi,
- Abstract要約: 本稿では,OAT(Object-level Attention Transformer)を紹介する。
OATは人間のスキャンパスを予測し、散らかった邪魔者のシーンで対象物を検索する。
我々は、Amazonの書籍カバーデータセットと、収集したビジュアル検索のための新しいデータセットに基づいて、OATを評価した。
- 参考スコア(独自算出の注目度): 0.2796197251957245
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual search is important in our daily life. The efficient allocation of visual attention is critical to effectively complete visual search tasks. Prior research has predominantly modelled the spatial allocation of visual attention in images at the pixel level, e.g. using a saliency map. However, emerging evidence shows that visual attention is guided by objects rather than pixel intensities. This paper introduces the Object-level Attention Transformer (OAT), which predicts human scanpaths as they search for a target object within a cluttered scene of distractors. OAT uses an encoder-decoder architecture. The encoder captures information about the position and appearance of the objects within an image and about the target. The decoder predicts the gaze scanpath as a sequence of object fixations, by integrating output features from both the encoder and decoder. We also propose a new positional encoding that better reflects spatial relationships between objects. We evaluated OAT on the Amazon book cover dataset and a new dataset for visual search that we collected. OAT's predicted gaze scanpaths align more closely with human gaze patterns, compared to predictions by algorithms based on spatial attention on both established metrics and a novel behavioural-based metric. Our results demonstrate the generalization ability of OAT, as it accurately predicts human scanpaths for unseen layouts and target objects.
- Abstract(参考訳): ビジュアル検索は私たちの日常生活において重要である。
視覚的な注意を効果的に割り当てることは、視覚的な検索タスクを効果的に完了させる上で重要である。
以前の研究では、例えばサリエンシマップを用いて、ピクセルレベルの画像における視覚的注意の空間的割り当てを主にモデル化してきた。
しかし、新たな証拠は、視覚的注意はピクセル強度ではなく物体によって導かれることを示している。
本稿では,乱雑な乱れの場面で対象物を探索する際に,人間のスキャンパスを予測するオブジェクトレベル注意変換器(OAT)を提案する。
OATはエンコーダ-デコーダアーキテクチャを使用する。
エンコーダは、画像内のオブジェクトの位置と外観、およびターゲットに関する情報をキャプチャする。
デコーダは、エンコーダとデコーダの両方からの出力特徴を統合することにより、ガーゼスキャンパスをオブジェクト固定のシーケンスとして予測する。
また,物体間の空間的関係をよりよく反映する新しい位置符号化法を提案する。
我々は、Amazonの書籍カバーデータセットと、収集したビジュアル検索のための新しいデータセットに基づいて、OATを評価した。
OATの予測された視線スキャンパスは、確立されたメトリクスと行動に基づく新しいメトリクスの両方に対する空間的注意に基づくアルゴリズムによる予測と比較して、人間の視線パターンとより密接に一致している。
OATの一般化能力は,不明瞭なレイアウトや対象物に対する人間のスキャンパスを正確に予測するものである。
関連論文リスト
- Boosting Gaze Object Prediction via Pixel-level Supervision from Vision Foundation Model [19.800353299691277]
本稿では,人間の視線行動によって捉えた被写体に対応する画素レベルのマスクを推定する,より困難な視線オブジェクトセグメンテーション(GOS)タスクを提案する。
そこで本研究では,実環境におけるモデルの推論効率と柔軟性を確保するために,シーン特徴から頭部特徴を自動的に取得することを提案する。
論文 参考訳(メタデータ) (2024-08-02T06:32:45Z) - PD-APE: A Parallel Decoding Framework with Adaptive Position Encoding for 3D Visual Grounding [20.422852022310945]
3Dビジュアルグラウンドは、特定の自然言語記述にマッチする3Dポイントクラウドシーン内のオブジェクトを特定することを目的としている。
これは、モデルが対象のオブジェクト自体にフォーカスするだけでなく、周囲の環境も考慮する必要がある。
本稿では,対象オブジェクト属性と周辺レイアウトを別々にデコードするデュアルブランチデコーディングフレームワークPD-APEを提案する。
論文 参考訳(メタデータ) (2024-07-19T17:44:33Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Selective Visual Representations Improve Convergence and Generalization
for Embodied AI [44.33711781750707]
身体化されたAIモデルは、CLIPのような棚の視覚バックボーンを使って視覚的な観察をエンコードすることが多い。
これは学習プロセス内のノイズを導入し、タスク関連視覚的手がかりからエージェントの焦点を逸脱させる。
人間が経験、知識、課題に基づいて知覚をフィルタリングするプロセスにおいて、人間の選択的な注意を喚起して、我々は、具体化されたAIのための視覚刺激をフィルタリングするためのパラメータ効率の良いアプローチを導入する。
論文 参考訳(メタデータ) (2023-11-07T18:34:02Z) - Open-Vocabulary Object Detection via Scene Graph Discovery [53.27673119360868]
オープンボキャブラリ(OV)オブジェクト検出は研究の注目を集めている。
OV検出にシーングラフキューを利用するSGDN(Scene-Graph-Based Discovery Network)を提案する。
論文 参考訳(メタデータ) (2023-07-07T00:46:19Z) - SOOD: Towards Semi-Supervised Oriented Object Detection [57.05141794402972]
本稿では, 主流の擬似ラベリングフレームワーク上に構築された, SOOD と呼ばれる, 半教師付きオブジェクト指向物体検出モデルを提案する。
提案した2つの損失をトレーニングした場合,SOODはDOTA-v1.5ベンチマークの様々な設定下で,最先端のSSOD法を超越することを示した。
論文 参考訳(メタデータ) (2023-04-10T11:10:42Z) - Predicting Visual Attention and Distraction During Visual Search Using
Convolutional Neural Networks [2.7920304852537527]
視覚探索において,視覚的注意をモデル化し,観察者の注意を逸脱させる2つの手法を提案する。
我々の最初のアプローチは、人間の目の視線密度マップを検索画像のピクセル上で予測するために、軽量な自由視度モデルに適応する。
第2のアプローチはオブジェクトベースであり、視覚検索中の乱れや対象物を予測する。
論文 参考訳(メタデータ) (2022-10-27T00:39:43Z) - Active Gaze Control for Foveal Scene Exploration [124.11737060344052]
本研究では,葉型カメラを用いた人間とロボットが現場を探索する方法をエミュレートする手法を提案する。
提案手法は,同数の視線シフトに対してF1スコアを2~3ポイント増加させる。
論文 参考訳(メタデータ) (2022-08-24T14:59:28Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Graph Attention Tracking [76.19829750144564]
汎用オブジェクト追跡のための簡易な目標認識型シームズグラフアテンションネットワークを提案する。
GOT-10k、UAV123、TB-100、LaSOTといった挑戦的なベンチマークの実験は、提案されたSiamGATが最先端のトラッカーよりも優れていることを示した。
論文 参考訳(メタデータ) (2020-11-23T04:26:45Z) - Applying r-spatiogram in object tracking for occlusion handling [16.36552899280708]
映像追跡の目的は、動画シーケンス内の移動対象を正確に特定し、そのシーケンスの特徴空間内の非ターゲットから目標を識別することである。
本稿では,オブジェクトモデリング,オブジェクト検出とローカライゼーション,モデル更新という,参照モデルの3つの主要コンポーネントで構成される多くのトラッカーの基本概念を用いる。
論文 参考訳(メタデータ) (2020-03-18T02:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。