論文の概要: Visual Search Asymmetry: Deep Nets and Humans Share Similar Inherent
Biases
- arxiv url: http://arxiv.org/abs/2106.02953v1
- Date: Sat, 5 Jun 2021 19:46:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:43:52.613459
- Title: Visual Search Asymmetry: Deep Nets and Humans Share Similar Inherent
Biases
- Title(参考訳): ビジュアル検索の非対称性:深部ネットと人間は類似した遺伝性バイアスを共有
- Authors: Shashi Kant Gupta, Mengmi Zhang, Chia-Chien Wu, Jeremy M. Wolfe,
Gabriel Kreiman
- Abstract要約: 古典的な探索タスクの興味深い性質は、邪魔者Bの目標Aを見つけることが、Aの中の目標Bを見つけることよりも容易である、という非対称性である。
本稿では,対象物と探索画像を入力として取り込んで,対象物が見つかるまで眼球運動列を生成する計算モデルを提案する。
ヒトの非対称性を示す6つのパラダイム探索課題において、人間の行動に対するモデルを比較した。
- 参考スコア(独自算出の注目度): 7.209733010493132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual search is a ubiquitous and often challenging daily task, exemplified
by looking for the car keys at home or a friend in a crowd. An intriguing
property of some classical search tasks is an asymmetry such that finding a
target A among distractors B can be easier than finding B among A. To elucidate
the mechanisms responsible for asymmetry in visual search, we propose a
computational model that takes a target and a search image as inputs and
produces a sequence of eye movements until the target is found. The model
integrates eccentricity-dependent visual recognition with target-dependent
top-down cues. We compared the model against human behavior in six paradigmatic
search tasks that show asymmetry in humans. Without prior exposure to the
stimuli or task-specific training, the model provides a plausible mechanism for
search asymmetry. We hypothesized that the polarity of search asymmetry arises
from experience with the natural environment. We tested this hypothesis by
training the model on an augmented version of ImageNet where the biases of
natural images were either removed or reversed. The polarity of search
asymmetry disappeared or was altered depending on the training protocol. This
study highlights how classical perceptual properties can emerge in neural
network models, without the need for task-specific training, but rather as a
consequence of the statistical properties of the developmental diet fed to the
model. All source code and stimuli are publicly available
https://github.com/kreimanlab/VisualSearchAsymmetry
- Abstract(参考訳): ビジュアル検索は日常的なタスクであり、家にある車のキーや群衆の中の友人を探すことで例示される。
古典的な探索タスクの興味深い性質は、邪魔者Bの目標Aを見つけることが、Aの中の目標Bを見つけるよりも容易な非対称性である。
視覚探索における非対称性のメカニズムを明らかにするために,対象物と探索画像とを入力とし,対象物が見つかるまで眼球運動列を生成する計算モデルを提案する。
このモデルは、偏心性に依存した視覚認識とターゲット依存のトップダウンキューを統合する。
ヒトの非対称性を示す6つのパラダイム探索課題において、人間の行動に対するモデルを比較した。
刺激やタスク固有のトレーニングに事前露出することなく、このモデルは検索非対称性の可能なメカニズムを提供する。
探索非対称性の極性は自然環境の経験から生じると仮定した。
この仮説を,自然画像のバイアスを取り除いたり逆転させたりするimagenetの拡張バージョンでトレーニングすることで検証した。
探索非対称性の極性は、トレーニングプロトコルによって消失または変化した。
本研究は、ニューラルネットワークモデルにおいて、タスク固有のトレーニングを必要とせず、そのモデルに供給される発達食の統計的性質の結果として、古典的知覚特性がどのように出現するかを強調する。
all source code and stimuli are available https://github.com/kreimanlab/visualsearchasymmetry
関連論文リスト
- Unified Dynamic Scanpath Predictors Outperform Individually Trained Neural Models [18.327960366321655]
本研究では,ビデオ中のスキャンパスを予測するために,ディープラーニングに基づくソーシャルキュー統合モデルを構築した。
我々は,自由視聴条件下で観察された動的な社会シーンの視線に対するアプローチを評価した。
結果は、すべての観察者のスキャンパスに基づいて訓練された単一の統一モデルが、個別に訓練されたモデルよりも同等以上のパフォーマンスを示すことを示している。
論文 参考訳(メタデータ) (2024-05-05T13:15:11Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Symmetry Considerations for Learning Task Symmetric Robot Policies [12.856889419651521]
シンメトリーは多くの現実世界のロボットタスクの基本的な側面である。
現在の深層強化学習(DRL)アプローチは、対称性を効果的に活用することは滅多にない。
論文 参考訳(メタデータ) (2024-03-07T09:41:11Z) - Computing a human-like reaction time metric from stable recurrent vision
models [11.87006916768365]
我々は,刺激計算可能なタスク最適化モデルから,反応時間の計算量を構築するための汎用方法論をスケッチする。
評価基準は,4つの異なる視覚的意思決定タスクの刺激操作において,人間の反応時間のパターンと一致していることを示す。
この研究は、他の様々な認知タスクの文脈において、モデルと人間の視覚戦略の時間的アライメントを探索する方法を開拓する。
論文 参考訳(メタデータ) (2023-06-20T14:56:02Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - Target-absent Human Attention [44.10971508325032]
探索終端問題に対処する最初のデータ駆動型計算モデルを提案する。
我々は、新しい状態表現を用いて、視聴者が固定によって取得する内部知識を表現する。
我々は,COCO-Search18データセット上での人的目標依存探索行動の予測における技術の現状を改善した。
論文 参考訳(メタデータ) (2022-07-04T02:32:04Z) - Bongard-HOI: Benchmarking Few-Shot Visual Reasoning for Human-Object
Interactions [138.49522643425334]
Bongard-HOIは、自然画像からの人間と物体の相互作用の合成学習に焦点を当てた、新しい視覚的推論ベンチマークである。
古典的ボナード問題(BP)の2つの望ましい特徴に着想を得たものである。
Bongard-HOIは、今日の視覚認識モデルに重大な課題を提示している。
論文 参考訳(メタデータ) (2022-05-27T07:36:29Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - Masked prediction tasks: a parameter identifiability view [49.533046139235466]
マスク付きトークンの予測に広く用いられている自己教師型学習手法に着目する。
いくつかの予測タスクは識別可能性をもたらすが、他のタスクはそうではない。
論文 参考訳(メタデータ) (2022-02-18T17:09:32Z) - Abstract Spatial-Temporal Reasoning via Probabilistic Abduction and
Execution [97.50813120600026]
時空間推論は人工知能(AI)の課題である
最近の研究は、この種の抽象的推論タスクに焦点を当てている -- Raven's Progressive Matrices (RPM)
ニューロシンボリックな確率的アブダクションと実行学習者(PrAE)を提案する。
論文 参考訳(メタデータ) (2021-03-26T02:42:18Z) - Modeling human visual search: A combined Bayesian searcher and saliency
map approach for eye movement guidance in natural scenes [0.0]
そこで本稿では,従量性マップによる視覚検索を事前情報として統合したベイズモデルを提案する。
視覚検索タスクにおける最初の2つの修正の予測において,最先端のサリエンシモデルが良好に機能することを示すが,その後,その性能は低下する。
これは、サリエンシマップだけでボトムアップファーストインプレッションをモデル化できるが、トップダウンタスク情報が重要な場合、スキャンパスを説明するのに十分ではないことを示唆している。
論文 参考訳(メタデータ) (2020-09-17T15:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。