論文の概要: Toddlers' Active Gaze Behavior Supports Self-Supervised Object Learning
- arxiv url: http://arxiv.org/abs/2411.01969v2
- Date: Wed, 12 Feb 2025 09:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:46:53.906366
- Title: Toddlers' Active Gaze Behavior Supports Self-Supervised Object Learning
- Title(参考訳): Toddlers' Active Gaze Behaviors Supports Self-Supervised Object Learning
- Authors: Zhengyang Yu, Arthur Aubret, Marcel C. Raabe, Jane Yang, Chen Yu, Jochen Triesch,
- Abstract要約: 幼児は、ほとんど監督することなく、異なる視点からオブジェクトを認識することを学ぶ。
近年の研究では、幼児はオブジェクトと対話しながら、近い時間に視覚的な入力を類似の表現にマッピングすることで、この能力を発達させると主張している。
幼児が対象表現の学習を支援するために、これらの眼球運動を通して視覚経験をキュレートするかどうかは不明である。
- 参考スコア(独自算出の注目度): 4.612042044544857
- License:
- Abstract: Toddlers learn to recognize objects from different viewpoints with almost no supervision. Recent works argue that toddlers develop this ability by mapping close-in-time visual inputs to similar representations while interacting with objects. High acuity vision is only available in the central visual field, which May explain why toddlers (much like adults) constantly move around their gaze during such interactions. It is unclear whether/how much toddlers curate their visual experience through these eye movements to support their learning of object representations. In this work, we explore whether a bio-inspired visual learning model can harness toddlers' gaze behavior during a play session to develop view-invariant object recognition. Exploiting head-mounted eye tracking during dyadic play, we simulate toddlers' central visual field experience by cropping image regions centered on the gaze location. This visual stream feeds time-based self-supervised learning algorithms. Our experiments demonstrate that toddlers' gaze strategy supports the learning of invariant object representations. Our analysis also reveals that the limited size of the central visual field where acuity is high is crucial for this. We further find that toddlers' visual experience elicits more robust representations compared to adults', mostly because toddlers look at objects they hold themselves for longer bouts. Overall, our work reveals how toddlers' gaze behavior supports self-supervised learning of view-invariant object recognition.
- Abstract(参考訳): 幼児は、ほとんど監督することなく、異なる視点からオブジェクトを認識することを学ぶ。
近年の研究では、幼児はオブジェクトと対話しながら、近い時間に視覚的な入力を類似の表現にマッピングすることで、この能力を発達させると主張している。
視力の高い視力は中心の視野でのみ利用でき、幼児が(大人のように)常に視線を回っている理由を説明できるかもしれない。
幼児が対象表現の学習を支援するために、これらの眼球運動を通して視覚経験をキュレートするかどうかは不明である。
そこで本研究では,幼児の視線行動を利用した視覚学習モデルの構築について検討する。
乳幼児の視線位置を中心とした画像領域をトリミングすることにより,頭部装着眼球運動時の視線追跡をシミュレートする。
このビジュアルストリームは、時間に基づく自己教師付き学習アルゴリズムを提供する。
幼児の視線戦略が不変物体表現の学習を支援することを示す実験を行った。
また,本研究では,視力の高い中心視野の限られたサイズが重要であることも明らかにした。
さらに、幼児の視覚体験は、大人よりも頑健な表現をもたらすことが判明した。
本研究は,幼児の視線行動が視覚不変物体認識の自己教師付き学習を支援する方法を明らかにする。
関連論文リスト
- Discovering Hidden Visual Concepts Beyond Linguistic Input in Infant Learning [18.43931715859825]
コンピュータビジョンが人間の視覚システムを再現しようとすると、幼児の視覚発達を理解することは貴重な洞察を与えるかもしれない。
モデルの内部表現に隠れた視覚概念ニューロンを発見できる学習自由フレームワークを提案する。
我々の研究は、幼児の視覚的および言語的入力に基づいて訓練された計算モデルの内部表現を分析することによって、認知科学とコンピュータビジョンを橋渡しする。
論文 参考訳(メタデータ) (2025-01-09T12:55:55Z) - Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors [49.99728312519117]
この研究の目的は、最近の意味に基づくアクティブな知覚モデルが、人間が定期的に行う視覚的なタスクをいかに正確に達成できるかを確立することである。
このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。
シーン探索の課題では、セマンティック・ベースの手法は従来のサリエンシ・ベース・モデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-16T18:15:57Z) - Caregiver Talk Shapes Toddler Vision: A Computational Study of Dyadic
Play [8.164232628099619]
本稿では, ディヤドプレイにおける視覚表現学習の計算モデルを提案する。
実介護者の統計値に一致した発話は, カテゴリー認識の改善を支援する表現を生じさせることを示す。
論文 参考訳(メタデータ) (2023-12-07T08:18:40Z) - A Computational Account Of Self-Supervised Visual Learning From
Egocentric Object Play [3.486683381782259]
本研究では,異なる視点を同一視する学習信号が,頑健な視覚学習を支援する方法について検討する。
物体の異なる物理的視点から学習した表現は、下流画像の分類精度を向上する。
論文 参考訳(メタデータ) (2023-05-30T22:42:03Z) - BI AVAN: Brain inspired Adversarial Visual Attention Network [67.05560966998559]
機能的脳活動から直接人間の視覚的注意を特徴付ける脳誘発対人視覚注意ネットワーク(BI-AVAN)を提案する。
本モデルは,人間の脳が監督されていない方法で焦点を絞った映画フレーム内の視覚的物体を識別・発見するために,注意関連・無視対象間の偏りのある競合過程を模倣する。
論文 参考訳(メタデータ) (2022-10-27T22:20:36Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - Attention Mechanisms in Computer Vision: A Survey [75.6074182122423]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。
チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。
我々は注意機構研究の今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-11-15T09:18:40Z) - Constellation: Learning relational abstractions over objects for
compositional imagination [64.99658940906917]
静的な視覚シーンのリレーショナル抽象化を学習するネットワークであるConstellationを紹介する。
この研究は、視覚的関係を明確に表現し、それらを複雑な認知手続きに使用するための第一歩である。
論文 参考訳(メタデータ) (2021-07-23T11:59:40Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - A Computational Model of Early Word Learning from the Infant's Point of
View [15.443815646555125]
本研究では,親との遊戯中に幼児の学習者から収集したエゴセントリックな映像と視線データを用いた。
次に、畳み込みニューラルネットワーク(CNN)モデルを用いて、幼児の視点から感覚データを処理し、スクラッチから名前とオブジェクトの関連を学習した。
本研究は,幼児期の単語学習をシミュレートするために生のエゴセントリックビデオを利用する最初のモデルとして,早期語学習の問題を解くことができるという原理の証明を提供する。
論文 参考訳(メタデータ) (2020-06-04T12:08:44Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。