論文の概要: Do humans and Convolutional Neural Networks attend to similar areas
during scene classification: Effects of task and image type
- arxiv url: http://arxiv.org/abs/2307.13345v1
- Date: Tue, 25 Jul 2023 09:02:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 17:43:42.435888
- Title: Do humans and Convolutional Neural Networks attend to similar areas
during scene classification: Effects of task and image type
- Title(参考訳): 人間と畳み込みニューラルネットワークはシーン分類中に類似した領域に出席する:タスクとイメージタイプの影響
- Authors: Romy M\"uller, Marcel Duerschmidt, Julian Ullrich, Carsten Knoll,
Sascha Weber, Steffen Seitz
- Abstract要約: 本研究では,人間とCNNの類似性を調節するために,人間の注意マップを抽出するタスクが画像特性とどのように相互作用するかを検討した。
分類対象のタイプは, 特異な, 健全なオブジェクト, オブジェクト配置からなる屋内シーン, あるいは, カテゴリーを定義していないランドスケープのいずれかを用いて変化した。
対象物に対して、人間の手動選択は、CNNと最もよく似た地図を作成し、特定の眼球運動タスクは、ほとんど影響を与えなかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Learning models like Convolutional Neural Networks (CNN) are powerful
image classifiers, but what factors determine whether they attend to similar
image areas as humans do? While previous studies have focused on technological
factors, little is known about the role of factors that affect human attention.
In the present study, we investigated how the tasks used to elicit human
attention maps interact with image characteristics in modulating the similarity
between humans and CNN. We varied the intentionality of human tasks, ranging
from spontaneous gaze during categorization over intentional gaze-pointing up
to manual area selection. Moreover, we varied the type of image to be
categorized, using either singular, salient objects, indoor scenes consisting
of object arrangements, or landscapes without distinct objects defining the
category. The human attention maps generated in this way were compared to the
CNN attention maps revealed by explainable artificial intelligence (Grad-CAM).
The influence of human tasks strongly depended on image type: For objects,
human manual selection produced maps that were most similar to CNN, while the
specific eye movement task has little impact. For indoor scenes, spontaneous
gaze produced the least similarity, while for landscapes, similarity was
equally low across all human tasks. To better understand these results, we also
compared the different human attention maps to each other. Our results
highlight the importance of taking human factors into account when comparing
the attention of humans and CNN.
- Abstract(参考訳): convolutional neural networks(cnn)のようなディープラーニングモデルは強力なイメージ分類器だが、人間と同様のイメージ領域に順応するかどうかを決定する要因は何だろう?
これまでの研究は技術的要因に焦点を当ててきたが、人間の注意に影響する要因についてはほとんど知られていない。
本研究では,人間とCNNの類似性を調節するために,人間の注意マップを抽出するタスクが画像特性とどのように相互作用するかを検討した。
人間の課題の意図は,カテゴリー分け中の自然視から,手動領域の選択まで様々であった。
さらに,分類対象のタイプは,特徴的,健全なオブジェクト,オブジェクト配置からなる屋内シーン,あるいはそのカテゴリを定義しないランドスケープのいずれかを用いて変化した。
このような人間の注意マップは、説明可能な人工知能(Grad-CAM)によって明らかにされたCNNの注意マップと比較された。
人間の作業の影響は画像タイプに強く依存しており、オブジェクトに対して、人間の手作業による選択はcnnと最もよく似た地図を作成したが、特定の眼球運動タスクは影響が少ない。
室内の場面では自発的な視線がほとんど似ていないが、風景では全ての作業において類似度が同じほど低かった。
これらの結果をよりよく理解するために、異なる人間の注意マップを互いに比較した。
本研究は,人間とcnnの注目度を比較する際に,人間的要因を考慮に入れることの重要性を強調する。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Guiding Visual Attention in Deep Convolutional Neural Networks Based on
Human Eye Movements [0.0]
ディープ畳み込みニューラルネットワーク(DCNN)は、当初は生物学的ビジョンの原理にインスパイアされていた。
近年のディープラーニングの進歩は、この類似性を減らしているようだ。
有用なモデルを得るための純粋にデータ駆動型アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-21T17:59:23Z) - Passive attention in artificial neural networks predicts human visual
selectivity [8.50463394182796]
受動的注意法は人間の視覚的選択性の推定と大きく重なることを示す。
認識実験を用いて,これらの相関関係を因果操作で検証した。
この研究は、人間の視覚のモデルとして、主要なANNの生物学的および心理的妥当性を評価するための新しいアプローチに寄与する。
論文 参考訳(メタデータ) (2021-07-14T21:21:48Z) - Gaze Perception in Humans and CNN-Based Model [66.89451296340809]
cnn(convolutional neural network)ベースの視線モデルと,実世界の映像における注意の軌跡を人間がどのように推定するかを比較した。
モデルと比較すると,注目点の人間推定はシーンの文脈に強く影響していることが示される。
論文 参考訳(メタデータ) (2021-04-17T04:52:46Z) - HumanGPS: Geodesic PreServing Feature for Dense Human Correspondences [60.89437526374286]
先行芸術はフレーム間の小さな動きを仮定するか、または大きな動きや視覚的に曖昧な身体部分を扱うことができないローカル記述子に依存します。
本稿では,各画素を特徴空間にマッピングし,特徴距離が画素間の測地距離を反映する深層学習フレームワークを提案する。
セマンティックアノテーションがなければ、提案する埋め込みは自動的に学習し、視覚的に類似した部分を区別し、異なる主題を統一された機能空間にまとめる。
論文 参考訳(メタデータ) (2021-03-29T12:43:44Z) - Fooling the primate brain with minimal, targeted image manipulation [67.78919304747498]
本稿では、行動に反映される神経活動と知覚の両方の変化をもたらす、最小限の標的画像摂動を生成するための一連の手法を提案する。
我々の研究は、敵対的攻撃、すなわち最小限のターゲットノイズによる画像の操作で同じ目標を共有し、ANNモデルに画像の誤分類を誘導する。
論文 参考訳(メタデータ) (2020-11-11T08:30:54Z) - Seeing eye-to-eye? A comparison of object recognition performance in
humans and deep convolutional neural networks under image manipulation [0.0]
本研究では,ヒトとフィードフォワードニューラルネットワークの視覚コア物体認識性能の行動比較を目的とした。
精度分析の結果、人間はDCNNを全ての条件で上回るだけでなく、形状や色の変化に対する強い堅牢性も示している。
論文 参考訳(メタデータ) (2020-07-13T10:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。