論文の概要: Embodied vision for learning object representations
- arxiv url: http://arxiv.org/abs/2205.06198v1
- Date: Thu, 12 May 2022 16:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:09:38.006508
- Title: Embodied vision for learning object representations
- Title(参考訳): 物体表現学習のための身体視
- Authors: Arthur Aubret, C\'eline Teuli\`ere and Jochen Triesch
- Abstract要約: 幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
- 参考スコア(独自算出の注目度): 4.211128681972148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent time-contrastive learning approaches manage to learn invariant object
representations without supervision. This is achieved by mapping successive
views of an object onto close-by internal representations. When considering
this learning approach as a model of the development of human object
recognition, it is important to consider what visual input a toddler would
typically observe while interacting with objects. First, human vision is highly
foveated, with high resolution only available in the central region of the
field of view. Second, objects may be seen against a blurry background due to
infants' limited depth of field. Third, during object manipulation a toddler
mostly observes close objects filling a large part of the field of view due to
their rather short arms. Here, we study how these effects impact the quality of
visual representations learnt through time-contrastive learning. To this end,
we let a visually embodied agent "play" with objects in different locations of
a near photo-realistic flat. During each play session the agent views an object
in multiple orientations before turning its body to view another object. The
resulting sequence of views feeds a time-contrastive learning algorithm. Our
results show that visual statistics mimicking those of a toddler improve object
recognition accuracy in both familiar and novel environments. We argue that
this effect is caused by the reduction of features extracted in the background,
a neural network bias for large features in the image and a greater similarity
between novel and familiar background regions. We conclude that the embodied
nature of visual learning may be crucial for understanding the development of
human object perception.
- Abstract(参考訳): 最近の時間コントラスト学習アプローチは、監督なしで不変オブジェクト表現を学習する。
これはオブジェクトの連続したビューをクローズバイ内部表現にマッピングすることで達成される。
この学習アプローチを人間の物体認識発達のモデルとして考える場合、幼児が物体と相互作用しながら観察する視覚入力を考慮しておくことが重要である。
第一に、人間の視覚は高度に発達しており、高解像度は視野の中心領域でのみ利用可能である。
第二に、幼児の視野の深さが限られているため、ぼやけた背景に物体が見えることがある。
第三に、オブジェクト操作の間、幼児は、かなり短い腕のため、視野の大部分を占める近接物体をほとんど観察する。
本稿では,これらの効果が時間差学習を通して学習した視覚表現の質に与える影響について検討する。
この目的のために、私たちは視覚的に具現化されたエージェントを、近距離のフォトリアリスティックフラットの異なる場所のオブジェクトと“プレイ”させました。
各プレイセッションでエージェントは、別のオブジェクトを見るためにボディを回す前に、複数の方向でオブジェクトを見る。
結果として得られるビューのシーケンスは、タイムコントラスト学習アルゴリズムを提供する。
その結果,幼児を模倣した視覚統計では,慣れ親しんだ環境と新しい環境での物体認識精度が向上した。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域とのより類似性によって生じる。
視覚学習の具体的性質は、人間の物体知覚の発達を理解する上で重要であると結論づける。
関連論文リスト
- Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - The Right Spin: Learning Object Motion from Rotation-Compensated Flow
Fields [61.664963331203666]
人間がどのように動く物体を知覚するかは、コンピュータービジョンにおける長年の研究課題である。
この問題の1つのアプローチは、これらすべての効果をモデル化するためのディープネットワークを教えることである。
運動場からカメラの回転を推定する新しい確率モデルを提案する。
論文 参考訳(メタデータ) (2022-02-28T22:05:09Z) - Unsupervised Learning of Compositional Scene Representations from
Multiple Unspecified Viewpoints [41.07379505694274]
我々は、監督を使わずに、複数の特定されていない視点から構成シーン表現を学習する新しい問題を考える。
本稿では,潜在表現を視点に依存しない部分と視点に依存しない部分とに分離し,この問題を解決するための深層生成モデルを提案する。
いくつかの特別に設計された合成データセットの実験により、提案手法は複数の特定されていない視点から効果的に学習できることが示されている。
論文 参考訳(メタデータ) (2021-12-07T08:45:21Z) - Learning to Ground Visual Objects for Visual Dialog [26.21407651331964]
視覚対話のための視覚オブジェクトを学習する新しい手法を提案する。
視覚的対象に対する後続分布は、文脈(歴史と疑問)と答えの両方から推測される。
文脈のみから推定される事前分布を用いて後部分布を近似し、回答なしに適切な視覚オブジェクトをグラウンド化できるようにする。
論文 参考訳(メタデータ) (2021-09-13T14:48:44Z) - Capturing the objects of vision with neural networks [0.0]
人間の視覚知覚はその物理的関節でシーンを彫り、世界をオブジェクトに分解する。
対照的に、視覚物体認識のディープニューラルネットワーク(DNN)モデルは、主に感覚入力と結びついている。
両分野の関連研究をレビューし、これらの分野が相互にどのように役立つかを検討する。
論文 参考訳(メタデータ) (2021-09-07T21:49:53Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - Simultaneous Multi-View Object Recognition and Grasping in Open-Ended
Domains [0.0]
オープンなオブジェクト認識と把握を同時に行うために,メモリ容量を増強したディープラーニングアーキテクチャを提案する。
シミュレーションと実世界設定の両方において,本手法が未確認のオブジェクトを把握し,現場でのごくわずかな例を用いて,新たなオブジェクトカテゴリを迅速に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-03T14:12:11Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。