論文の概要: Look Twice: A Computational Model of Return Fixations across Tasks and
Species
- arxiv url: http://arxiv.org/abs/2101.01611v1
- Date: Tue, 5 Jan 2021 15:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 14:48:02.703624
- Title: Look Twice: A Computational Model of Return Fixations across Tasks and
Species
- Title(参考訳): look twice: タスクと種をまたいだ帰納固定の計算モデル
- Authors: Mengmi Zhang, Will Xiao, Olivia Rose, Katarina Bendtz, Margaret
Livingstone, Carlos Ponce, Gabriel Kreiman
- Abstract要約: 自由視聴中、リターンの抑制は、以前に訪れた場所を妨げて探検を動機付ける。
サルとヒトの217,440件のうち44,328件の返却固定を静的画像や自我中心の動画で系統的に検討した。
ユビキタスリターン固定は被験者間で一貫しており、短いオフセットで発生する傾向があり、長い持続時間で特徴付けられる。
本研究では,物体認識のための深層畳み込みニューラルネットワークを応用した生物工学的計算モデルを提案する。
- 参考スコア(独自算出の注目度): 7.265711728234509
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Saccadic eye movements allow animals to bring different parts of an image
into high-resolution. During free viewing, inhibition of return incentivizes
exploration by discouraging previously visited locations. Despite this
inhibition, here we show that subjects make frequent return fixations. We
systematically studied a total of 44,328 return fixations out of 217,440
fixations across different tasks, in monkeys and humans, and in static images
or egocentric videos. The ubiquitous return fixations were consistent across
subjects, tended to occur within short offsets, and were characterized by
longer duration than non-return fixations. The locations of return fixations
corresponded to image areas of higher saliency and higher similarity to the
sought target during visual search tasks. We propose a biologically-inspired
computational model that capitalizes on a deep convolutional neural network for
object recognition to predict a sequence of fixations. Given an input image,
the model computes four maps that constrain the location of the next saccade: a
saliency map, a target similarity map, a saccade size map, and a memory map.
The model exhibits frequent return fixations and approximates the properties of
return fixations across tasks and species. The model provides initial steps
towards capturing the trade-off between exploitation of informative image
locations combined with exploration of novel image locations during scene
viewing.
- Abstract(参考訳): サケード眼球運動により、動物は画像の異なる部分を高解像度にすることができる。
自由視聴中、リターンの抑制は、以前に訪れた場所を妨げて探検を動機付ける。
この抑制にもかかわらず、被験者は頻繁にリターン固定を行う。
サルとヒトの217,440件のうち44,328件の返却固定を静的画像や自我中心の動画で系統的に検討した。
ユビキタスリターン固定は被験者間で一貫しており、短いオフセットで発生する傾向があり、非リターン固定よりも長い期間が特徴であった。
返却固定位置は, 視覚探索作業において, 検索対象と高い精度と高い類似性を示す画像領域に対応していた。
本稿では,物体認識のための深層畳み込みニューラルネットワークを活用し,固定のシーケンスを予測する,生物学的にインスパイアされた計算モデルを提案する。
入力画像が与えられると、モデルは次のサッケードの位置を制約する4つのマップを計算します:サッケードマップ、ターゲットの類似度マップ、サッケードサイズマップ、メモリマップ。
このモデルは頻繁にリターンフィクスメントを示し、タスクや種間でリターンフィクスレーションの特性を近似する。
このモデルでは,情報的画像位置の活用とシーン視聴時の新たな画像位置の探索のトレードオフを把握するための最初のステップを提供する。
関連論文リスト
- LoCUS: Learning Multiscale 3D-consistent Features from Posed Images [18.648772607057175]
我々は、監督なしに多目的な神経表現を訓練する。
検索セットを慎重に構築することで、検索と再利用のバランスをとることができる。
スパース,マルチスケール,セマンティック空間マップの作成結果を示す。
論文 参考訳(メタデータ) (2023-10-02T11:11:23Z) - RelPose++: Recovering 6D Poses from Sparse-view Observations [66.6922660401558]
スパースビュー画像集合(2-8画像)から6次元カメラポーズを推定する作業に対処する。
我々は,画像対上の相対回転よりも分布を推定するネットワークを学習するRelPoseフレームワークを構築した。
最終システムは,先行技術よりも6次元ポーズ予測を大幅に改善する。
論文 参考訳(メタデータ) (2023-05-08T17:59:58Z) - Few-View Object Reconstruction with Unknown Categories and Camera Poses [80.0820650171476]
この研究は、カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から、一般的な現実世界のオブジェクトを再構築する。
私たちの研究の要点は、形状再構成とポーズ推定という、2つの基本的な3D視覚問題を解決することです。
提案手法は,各ビューから3次元特徴を予測し,それらを入力画像と組み合わせて活用し,クロスビュー対応を確立する。
論文 参考訳(メタデータ) (2022-12-08T18:59:02Z) - Comparing Reconstruction- and Contrastive-based Models for Visual Task
Planning [22.544573360342948]
学習状態表現は、画像などの生の観察から直接ロボット計画を可能にする。
ほとんどの方法は、低次元潜在空間からの生観測の再構成に基づいて損失を利用して状態表現を学習する。
視覚的タスクプランニングにおいて、単純なコントラスト損失を伴うSameseネットワークのようなタスク前処理のモデルが、再構成に基づく表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-14T14:52:49Z) - Deep3DPose: Realtime Reconstruction of Arbitrarily Posed Human Bodies
from Single RGB Images [5.775625085664381]
本研究では,3次元人間のポーズを正確に再構築し,単一画像から詳細な3次元フルボディ幾何モデルをリアルタイムに構築する手法を提案する。
このアプローチの鍵となるアイデアは、単一のイメージを使用して5つの出力を同時に予測する、新しいエンドツーエンドのマルチタスクディープラーニングフレームワークである。
本研究では,3次元人体フロンティアを進化させ,定量的評価と最先端手法との比較により,単一画像からの再構築を図っている。
論文 参考訳(メタデータ) (2021-06-22T04:26:11Z) - CAMERAS: Enhanced Resolution And Sanity preserving Class Activation
Mapping for image saliency [61.40511574314069]
バックプロパゲーション画像のサリエンシは、入力中の個々のピクセルのモデル中心の重要性を推定することにより、モデル予測を説明することを目的としている。
CAMERASは、外部の事前処理を必要とせずに、高忠実度バックプロパゲーション・サリエンシ・マップを計算できる手法である。
論文 参考訳(メタデータ) (2021-06-20T08:20:56Z) - A Divide et Impera Approach for 3D Shape Reconstruction from Multiple
Views [49.03830902235915]
物体の3次元形状を1つまたは複数の画像から推定することは、最近のディープラーニングによるブレークスルーによって人気を集めている。
本稿では,与えられた視点からの可視情報を統合することで,視点変化の再構築に頼ることを提案する。
提案手法を検証するために,相対的なポーズ推定と3次元形状再構成の観点から,ShapeNet参照ベンチマークの総合評価を行った。
論文 参考訳(メタデータ) (2020-11-17T09:59:32Z) - Modeling human visual search: A combined Bayesian searcher and saliency
map approach for eye movement guidance in natural scenes [0.0]
そこで本稿では,従量性マップによる視覚検索を事前情報として統合したベイズモデルを提案する。
視覚検索タスクにおける最初の2つの修正の予測において,最先端のサリエンシモデルが良好に機能することを示すが,その後,その性能は低下する。
これは、サリエンシマップだけでボトムアップファーストインプレッションをモデル化できるが、トップダウンタスク情報が重要な場合、スキャンパスを説明するのに十分ではないことを示唆している。
論文 参考訳(メタデータ) (2020-09-17T15:38:23Z) - Unsupervised Landmark Learning from Unpaired Data [117.81440795184587]
教師なしランドマーク学習の最近の試みは、外観は似ているがポーズでは異なる合成画像対を活用する。
本稿では,2回スワッピング・リコンストラクション・ストラテジーを適用して最終監視を行うクロスイメージ・サイクル整合性フレームワークを提案する。
提案するフレームワークは,強いベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-06-29T13:57:20Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。