論文の概要: Embodied vision for learning object representations
- arxiv url: http://arxiv.org/abs/2205.06198v1
- Date: Thu, 12 May 2022 16:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:09:38.006508
- Title: Embodied vision for learning object representations
- Title(参考訳): 物体表現学習のための身体視
- Authors: Arthur Aubret, C\'eline Teuli\`ere and Jochen Triesch
- Abstract要約: 幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
- 参考スコア(独自算出の注目度): 4.211128681972148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent time-contrastive learning approaches manage to learn invariant object
representations without supervision. This is achieved by mapping successive
views of an object onto close-by internal representations. When considering
this learning approach as a model of the development of human object
recognition, it is important to consider what visual input a toddler would
typically observe while interacting with objects. First, human vision is highly
foveated, with high resolution only available in the central region of the
field of view. Second, objects may be seen against a blurry background due to
infants' limited depth of field. Third, during object manipulation a toddler
mostly observes close objects filling a large part of the field of view due to
their rather short arms. Here, we study how these effects impact the quality of
visual representations learnt through time-contrastive learning. To this end,
we let a visually embodied agent "play" with objects in different locations of
a near photo-realistic flat. During each play session the agent views an object
in multiple orientations before turning its body to view another object. The
resulting sequence of views feeds a time-contrastive learning algorithm. Our
results show that visual statistics mimicking those of a toddler improve object
recognition accuracy in both familiar and novel environments. We argue that
this effect is caused by the reduction of features extracted in the background,
a neural network bias for large features in the image and a greater similarity
between novel and familiar background regions. We conclude that the embodied
nature of visual learning may be crucial for understanding the development of
human object perception.
- Abstract(参考訳): 最近の時間コントラスト学習アプローチは、監督なしで不変オブジェクト表現を学習する。
これはオブジェクトの連続したビューをクローズバイ内部表現にマッピングすることで達成される。
この学習アプローチを人間の物体認識発達のモデルとして考える場合、幼児が物体と相互作用しながら観察する視覚入力を考慮しておくことが重要である。
第一に、人間の視覚は高度に発達しており、高解像度は視野の中心領域でのみ利用可能である。
第二に、幼児の視野の深さが限られているため、ぼやけた背景に物体が見えることがある。
第三に、オブジェクト操作の間、幼児は、かなり短い腕のため、視野の大部分を占める近接物体をほとんど観察する。
本稿では,これらの効果が時間差学習を通して学習した視覚表現の質に与える影響について検討する。
この目的のために、私たちは視覚的に具現化されたエージェントを、近距離のフォトリアリスティックフラットの異なる場所のオブジェクトと“プレイ”させました。
各プレイセッションでエージェントは、別のオブジェクトを見るためにボディを回す前に、複数の方向でオブジェクトを見る。
結果として得られるビューのシーケンスは、タイムコントラスト学習アルゴリズムを提供する。
その結果,幼児を模倣した視覚統計では,慣れ親しんだ環境と新しい環境での物体認識精度が向上した。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域とのより類似性によって生じる。
視覚学習の具体的性質は、人間の物体知覚の発達を理解する上で重要であると結論づける。
関連論文リスト
- Active Gaze Behavior Boosts Self-Supervised Object Learning [4.612042044544857]
本研究では, 視覚学習モデルを用いて, 幼児の視線行動を利用した視点不変物体認識の開発が可能であるかを検討した。
幼児の視線戦略が不変物体表現の学習を支援することを示す実験を行った。
本研究は,幼児の視線行動が視覚不変物体認識の自己教師付き学習を支援する方法を明らかにする。
論文 参考訳(メタデータ) (2024-11-04T10:44:46Z) - Learning 3D object-centric representation through prediction [12.008668555280668]
本研究では,1)離散画像からオブジェクトを抽出し,2)3次元位置を推定し,3)深度を知覚する新しいネットワークアーキテクチャを開発する。
中心となる考え方は、物体を脳が将来のシーンを効率的に予測するために使用する視覚入力の潜在原因として扱うことである。
論文 参考訳(メタデータ) (2024-03-06T14:19:11Z) - Spotlight Attention: Robust Object-Centric Learning With a Spatial
Locality Prior [88.9319150230121]
オブジェクト中心のビジョンは、シーン内のオブジェクトの明示的な表現を構築することを目的としています。
我々は、空間的局所性を最先端のオブジェクト中心視覚モデルに組み込む。
合成および実世界の両方のデータセットにおけるセグメンテーションオブジェクトの大幅な改善が得られた。
論文 参考訳(メタデータ) (2023-05-31T04:35:50Z) - A Computational Account Of Self-Supervised Visual Learning From
Egocentric Object Play [3.486683381782259]
本研究では,異なる視点を同一視する学習信号が,頑健な視覚学習を支援する方法について検討する。
物体の異なる物理的視点から学習した表現は、下流画像の分類精度を向上する。
論文 参考訳(メタデータ) (2023-05-30T22:42:03Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - Capturing the objects of vision with neural networks [0.0]
人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2021-09-07T21:49:53Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。