論文の概要: Predicting Visual Attention and Distraction During Visual Search Using
Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2210.15093v1
- Date: Thu, 27 Oct 2022 00:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 12:25:34.481646
- Title: Predicting Visual Attention and Distraction During Visual Search Using
Convolutional Neural Networks
- Title(参考訳): 畳み込みニューラルネットワークを用いた視覚探索における視覚の注意力と歪みの予測
- Authors: Manoosh Samiei, James J. Clark
- Abstract要約: 視覚探索において,視覚的注意をモデル化し,観察者の注意を逸脱させる2つの手法を提案する。
我々の最初のアプローチは、人間の目の視線密度マップを検索画像のピクセル上で予測するために、軽量な自由視度モデルに適応する。
第2のアプローチはオブジェクトベースであり、視覚検索中の乱れや対象物を予測する。
- 参考スコア(独自算出の注目度): 2.7920304852537527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most studies in computational modeling of visual attention encompass
task-free observation of images. Free-viewing saliency considers limited
scenarios of daily life. Most visual activities are goal-oriented and demand a
great amount of top-down attention control. Visual search task demands more
top-down control of attention, compared to free-viewing. In this paper, we
present two approaches to model visual attention and distraction of observers
during visual search. Our first approach adapts a light-weight free-viewing
saliency model to predict eye fixation density maps of human observers over
pixels of search images, using a two-stream convolutional encoder-decoder
network, trained and evaluated on COCO-Search18 dataset. This method predicts
which locations are more distracting when searching for a particular target.
Our network achieves good results on standard saliency metrics (AUC-Judd=0.95,
AUC-Borji=0.85, sAUC=0.84, NSS=4.64, KLD=0.93, CC=0.72, SIM=0.54, and IG=2.59).
Our second approach is object-based and predicts the distractor and target
objects during visual search. Distractors are all objects except the target
that observers fixate on during search. This method uses a Mask-RCNN
segmentation network pre-trained on MS-COCO and fine-tuned on COCO-Search18
dataset. We release our segmentation annotations of targets and distractors in
COCO-Search18 for three target categories: bottle, bowl, and car. The average
scores over the three categories are: F1-score=0.64, MAP(iou:0.5)=0.57,
MAR(iou:0.5)=0.73. Our implementation code in Tensorflow is publicly available
at https://github.com/ManooshSamiei/Distraction-Visual-Search .
- Abstract(参考訳): 視覚的注意の計算モデルにおけるほとんどの研究は、画像のタスクレス観察を含んでいる。
自由視聴の敬礼は日常生活の限られたシナリオを考慮に入れる。
ほとんどの視覚活動はゴール指向であり、多くのトップダウンの注意制御を必要とします。
ビジュアル検索タスクは、フリービューに比べて、よりトップダウンの注意制御を必要とする。
本稿では,視覚探索中の観察者の注意をモデル化する2つのアプローチを提案する。
最初のアプローチでは,COCO-Search18データセットを用いた2ストリーム畳み込みエンコーダ・デコーダネットワークを用いて,人間の眼球運動者の眼球修正密度マップを検索画像のピクセル上で予測する。
この方法は、特定のターゲットを探す際に、どの場所がより注意をそらすかを予測する。
AUC-Judd=0.95, AUC-Borji=0.85, sAUC=0.84, NSS=4.64, KLD=0.93, CC=0.72, SIM=0.54, IG=2.59。
第2のアプローチはオブジェクトベースであり、視覚検索中の乱れや対象物を予測する。
ディトラクタは、オブザーバが検索中に固定するターゲット以外はすべてオブジェクトである。
この方法は、MS-COCOで事前訓練された、COCO-Search18データセットで微調整されたMask-RCNNセグメンテーションネットワークを使用する。
ボトル,ボウル,カーの3つのカテゴリを対象に,COCO-Search18のターゲットとイントラクタのセグメンテーションアノテーションをリリースする。
F1スコア=0.64、MAP(iou:0.5)=0.57、MAR(iou:0.5)=0.73である。
Tensorflowの実装コードはhttps://github.com/ManooshSamiei/Distraction-Visual-Searchで公開されています。
関連論文リスト
- LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction [0.2796197251957245]
本稿では,OAT(Object-level Attention Transformer)を紹介する。
OATは人間のスキャンパスを予測し、散らかった邪魔者のシーンで対象物を検索する。
我々は、Amazonの書籍カバーデータセットと、収集したビジュアル検索のための新しいデータセットに基づいて、OATを評価した。
論文 参考訳(メタデータ) (2024-07-18T09:33:17Z) - Target Features Affect Visual Search, A Study of Eye Fixations [2.7920304852537527]
視覚探索における被験者のパフォーマンスが,異なるパラメータによってどう影響されるかを検討する。
我々の研究では、より大きく偏心的なターゲットが、より少ない数の固定でより高速に見つかることが示されている。
論文 参考訳(メタデータ) (2022-09-28T01:53:16Z) - Target-absent Human Attention [44.10971508325032]
探索終端問題に対処する最初のデータ駆動型計算モデルを提案する。
我々は、新しい状態表現を用いて、視聴者が固定によって取得する内部知識を表現する。
我々は,COCO-Search18データセット上での人的目標依存探索行動の予測における技術の現状を改善した。
論文 参考訳(メタデータ) (2022-07-04T02:32:04Z) - DetCo: Unsupervised Contrastive Learning for Object Detection [64.22416613061888]
教師なしのコントラスト学習は,CNNを用いた画像表現学習において大きな成功を収めている。
我々は,グローバルイメージとローカルイメージパッチのコントラストをフルに検討する,DetCoという新しいコントラスト学習手法を提案する。
DetCoは1倍のスケジュールでMask RCNN-C4/FPN/RetinaNet上で1.6/1.2/1.0 APで教師付き手法を一貫して上回っている。
論文 参考訳(メタデータ) (2021-02-09T12:47:20Z) - Graph Attention Tracking [76.19829750144564]
汎用オブジェクト追跡のための簡易な目標認識型シームズグラフアテンションネットワークを提案する。
GOT-10k、UAV123、TB-100、LaSOTといった挑戦的なベンチマークの実験は、提案されたSiamGATが最先端のトラッカーよりも優れていることを示した。
論文 参考訳(メタデータ) (2020-11-23T04:26:45Z) - Utilising Visual Attention Cues for Vehicle Detection and Tracking [13.2351348789193]
物体の検出と追跡に視覚的注意(透明性)を用いる可能性を探究する。
本稿では,物体を同時に検出し,対象性と主観性マップを生成し,計算力を節約するニューラルネットワークを提案する。
実験はKITTIとDETRACのデータセットを用いて行われた。
論文 参考訳(メタデータ) (2020-07-31T23:00:13Z) - A Self-Training Approach for Point-Supervised Object Detection and
Counting in Crowds [54.73161039445703]
本稿では,ポイントレベルのアノテーションのみを用いて訓練された典型的なオブジェクト検出を可能にする,新たな自己学習手法を提案する。
トレーニング中、利用可能なポイントアノテーションを使用して、オブジェクトの中心点の推定を監督する。
実験の結果,本手法は検出タスクとカウントタスクの両方において,最先端のポイント管理手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-25T02:14:42Z) - AttentionNAS: Spatiotemporal Attention Cell Search for Video
Classification [86.64702967379709]
本稿では,時間的注意のための新しい検索空間を提案する。これにより,検索アルゴリズムはセルの様々な設計選択を柔軟に探索することができる。
検出されたアテンションセルは既存のバックボーンネットワーク(例えばI3DやS3D)にシームレスに挿入することができ、Kinetics-600とMiTのデータセットでビデオの精度を2%以上改善することができる。
論文 参考訳(メタデータ) (2020-07-23T14:30:05Z) - Predicting Goal-directed Human Attention Using Inverse Reinforcement
Learning [44.774961463015245]
視覚探索においてヒトが使用する報酬関数とポリシーを学習するための最初の逆強化学習モデルを提案する。
IRLモデルをトレーニングし、評価するために、私たちはCOCO-Search18を作成しました。
論文 参考訳(メタデータ) (2020-05-28T21:46:27Z) - Self-Supervised Viewpoint Learning From Image Collections [116.56304441362994]
本稿では,解析・合成パラダイムを取り入れた新たな学習フレームワークを提案する。
提案手法は,人間の顔,車,バス,電車など,複数の対象カテゴリに対して,完全に教師されたアプローチに対して競争力を発揮することを示す。
論文 参考訳(メタデータ) (2020-04-03T22:01:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。