論文の概要: Capturing the objects of vision with neural networks
- arxiv url: http://arxiv.org/abs/2109.03351v1
- Date: Tue, 7 Sep 2021 21:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 13:38:42.228477
- Title: Capturing the objects of vision with neural networks
- Title(参考訳): ニューラルネットワークによる視覚オブジェクトのキャプチャ
- Authors: Benjamin Peters, Nikolaus Kriegeskorte
- Abstract要約: 人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human visual perception carves a scene at its physical joints, decomposing
the world into objects, which are selectively attended, tracked, and predicted
as we engage our surroundings. Object representations emancipate perception
from the sensory input, enabling us to keep in mind that which is out of sight
and to use perceptual content as a basis for action and symbolic cognition.
Human behavioral studies have documented how object representations emerge
through grouping, amodal completion, proto-objects, and object files. Deep
neural network (DNN) models of visual object recognition, by contrast, remain
largely tethered to the sensory input, despite achieving human-level
performance at labeling objects. Here, we review related work in both fields
and examine how these fields can help each other. The cognitive literature
provides a starting point for the development of new experimental tasks that
reveal mechanisms of human object perception and serve as benchmarks driving
development of deep neural network models that will put the object into object
recognition.
- Abstract(参考訳): 人間の視覚知覚は、その物理的関節でシーンを彫り、世界を選択的に出席し、追跡し、周囲の環境に関わりながら予測する物体に分解する。
物体表現は感覚入力から知覚を推定し,視覚的でないものを念頭に置き,行動や象徴的認知の基礎として知覚的コンテンツを使用する。
人間の行動研究は、グルーピング、アモーダルコンプリート、プロトオブジェクト、およびオブジェクトファイルを通じてオブジェクト表現がどのように出現するかを文書化している。
対照的に、視覚的物体認識のディープニューラルネットワーク(DNN)モデルは、オブジェクトのラベル付けにおいて人間レベルのパフォーマンスを達成したにもかかわらず、感覚入力と大きく結びついている。
本稿では,両分野の関連研究を概観し,これらの分野が相互にどのように役立つかを検討する。
認知文学は、人間の物体知覚のメカニズムを明らかにし、物体を物体認識に組み込むディープニューラルネットワークモデルの開発を促進するベンチマークとして機能する新しい実験タスクの開発の出発点を提供する。
関連論文リスト
- Learning 3D object-centric representation through prediction [12.008668555280668]
本研究では,1)離散画像からオブジェクトを抽出し,2)3次元位置を推定し,3)深度を知覚する新しいネットワークアーキテクチャを開発する。
中心となる考え方は、物体を脳が将来のシーンを効率的に予測するために使用する視覚入力の潜在原因として扱うことである。
論文 参考訳(メタデータ) (2024-03-06T14:19:11Z) - Towards A Unified Neural Architecture for Visual Recognition and
Reasoning [40.938279131241764]
視覚認識と推論のための統一型ニューラルアーキテクチャを提案し,両者の汎用インターフェース(トークンなど)を提案する。
我々のフレームワークは、視覚的認識タスク、データセット、帰納的バイアスが、原則化された時間的推論機能を実現するのにどのように役立つかを調べることができる。
論文 参考訳(メタデータ) (2023-11-10T20:27:43Z) - The ObjectFolder Benchmark: Multisensory Learning with Neural and Real
Objects [51.22194706674366]
マルチセンサーなオブジェクト中心学習のための10のタスクからなるベンチマークスイートであるObject Benchmarkを紹介した。
また,100個の実世界の家庭用オブジェクトに対するマルチセンサー計測を含む,オブジェクトリアルデータセットについても紹介する。
論文 参考訳(メタデータ) (2023-06-01T17:51:22Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - The Challenge of Appearance-Free Object Tracking with Feedforward Neural
Networks [12.081808043723937]
$itPathTracker$は、観察者が自分の動きだけでオブジェクトを追跡することを学べる機能をテストする。
標準的な3D畳み込み型ディープネットワークモデルは,この問題の解決に苦慮している。
生物学的視覚からの外見のない物体追跡のための戦略は、解決策を刺激することができる。
論文 参考訳(メタデータ) (2021-09-30T17:58:53Z) - ObjectFolder: A Dataset of Objects with Implicit Visual, Auditory, and
Tactile Representations [52.226947570070784]
両課題に対処する100のオブジェクトからなるデータセットであるObjectを,2つの重要なイノベーションで紹介する。
まず、オブジェクトは視覚的、聴覚的、触覚的なすべてのオブジェクトの知覚データをエンコードし、多数の多感覚オブジェクト認識タスクを可能にする。
第2に、Objectは統一されたオブジェクト中心のシミュレーションと、各オブジェクトの視覚的テクスチャ、触覚的読み出し、触覚的読み出しに暗黙的な表現を採用しており、データセットの使用が柔軟で共有が容易である。
論文 参考訳(メタデータ) (2021-09-16T14:00:59Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Learning Intermediate Features of Object Affordances with a
Convolutional Neural Network [1.52292571922932]
我々は深層畳み込みニューラルネットワーク(CNN)を訓練し、画像から手当を認識し、その基盤となる特徴や手当の寸法を知る。
我々は、この表現分析を、人間がどのように環境を知覚し、どのように相互作用するかを、よりフォーマルに説明するための第一歩であると考えている。
論文 参考訳(メタデータ) (2020-02-20T19:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。