論文の概要: Learning to See Through a Baby's Eyes: Early Visual Diets Enable Robust Visual Intelligence in Humans and Machines
- arxiv url: http://arxiv.org/abs/2511.14440v1
- Date: Tue, 18 Nov 2025 12:38:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.112924
- Title: Learning to See Through a Baby's Eyes: Early Visual Diets Enable Robust Visual Intelligence in Humans and Machines
- Title(参考訳): 赤ちゃんの目を通して見る:人間と機械の頑丈な視覚的知性を実現する初期のビジュアルダイエット
- Authors: Yusen Cai, Bhargava Satya Nunna, Qing Lin, Mengmi Zhang,
- Abstract要約: 我々は、幼児の視覚をシミュレートする制約の下で、オブジェクト中心のビデオ上で自己教師付き学習モデルを訓練する。
CATDietのすべての派生モデルは、オブジェクト中心のビデオにのみ訓練されているにもかかわらず、オブジェクト認識における堅牢性の向上を示している。
注目すべきことに、モデルはまた、マカクV1のシナプス密度を反映する神経可塑性の変化を含む生物学的に整列した発達パターンも示している。
- 参考スコア(独自算出の注目度): 11.78473025670319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Newborns perceive the world with low-acuity, color-degraded, and temporally continuous vision, which gradually sharpens as infants develop. To explore the ecological advantages of such staged "visual diets", we train self-supervised learning (SSL) models on object-centric videos under constraints that simulate infant vision: grayscale-to-color (C), blur-to-sharp (A), and preserved temporal continuity (T)-collectively termed CATDiet. For evaluation, we establish a comprehensive benchmark across ten datasets, covering clean and corrupted image recognition, texture-shape cue conflict tests, silhouette recognition, depth-order classification, and the visual cliff paradigm. All CATDiet variants demonstrate enhanced robustness in object recognition, despite being trained solely on object-centric videos. Remarkably, models also exhibit biologically aligned developmental patterns, including neural plasticity changes mirroring synaptic density in macaque V1 and behaviors resembling infants' visual cliff responses. Building on these insights, CombDiet initializes SSL with CATDiet before standard training while preserving temporal continuity. Trained on object-centric or head-mounted infant videos, CombDiet outperforms standard SSL on both in-domain and out-of-domain object recognition and depth perception. Together, these results suggest that the developmental progression of early infant visual experience offers a powerful reverse-engineering framework for understanding the emergence of robust visual intelligence in machines. All code, data, and models will be publicly released.
- Abstract(参考訳): 新生児は、低明度、色劣化、時間的に連続した視力で世界を知覚し、幼児が発達するにつれて徐々に鋭くなる。
このような「視覚的ダイエット」の生態学的優位性を探るため、幼児の視覚をシミュレートする制約の下で、自己教師型学習(SSL)モデルを訓練する:グレースケール・トゥ・カラー(C)、ブラー・トゥ・シャープ(A)、および保存的時間的連続性(T)協調性(CATDiet)。
評価のために、クリーンで破損した画像認識、テクスチャ形状のキューコンフリクトテスト、シルエット認識、深度順分類、視覚的崖パラダイムを含む、10のデータセットにわたる包括的なベンチマークを確立する。
CATDietのすべての派生モデルは、オブジェクト中心のビデオにのみ訓練されているにもかかわらず、オブジェクト認識における堅牢性の向上を示している。
注目すべきことに、モデルはまた、マカクV1のシナプス密度を反映する神経可塑性変化や、幼児の視覚的崖反応に似た行動を含む生物学的に整列した発達パターンも示している。
これらの洞察に基づいて、CombDietは標準トレーニングの前にSSLをCATDietで初期化し、時間的連続性を保存する。
CombDietは、オブジェクト中心またはヘッドマウントの幼児ビデオに基づいて訓練されており、ドメイン内およびドメイン外の両方のオブジェクト認識と深度知覚において標準SSLよりも優れています。
これらの結果は、幼児期の視覚体験の発達が、機械における堅牢な視覚知能の出現を理解するための強力なリバースエンジニアリングフレームワークを提供することを示唆している。
すべてのコード、データ、モデルが公開される。
関連論文リスト
- ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - Self-supervised learning of video representations from a child's perspective [27.439294457852423]
子どもたちは、エゴセントリックな視覚経験から、周囲の強力な内部モデルを学びます。
そのような内部モデルは、高度に汎用的な学習アルゴリズムで子どもの視覚経験から学べるか、あるいは強い帰納的バイアスを必要とするのか?
論文 参考訳(メタデータ) (2024-02-01T03:27:26Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Prune and distill: similar reformatting of image information along rat
visual cortex and deep neural networks [61.60177890353585]
深部畳み込み神経ネットワーク(CNN)は、脳の機能的類似、視覚野の腹側流の優れたモデルを提供することが示されている。
ここでは、CNNまたは視覚野の内部表現で知られているいくつかの顕著な統計的パターンについて考察する。
我々は、CNNと視覚野が、オブジェクト表現の次元展開/縮小と画像情報の再構成と、同様の密接な関係を持っていることを示す。
論文 参考訳(メタデータ) (2022-05-27T08:06:40Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - A Computational Model of Early Word Learning from the Infant's Point of
View [15.443815646555125]
本研究では,親との遊戯中に幼児の学習者から収集したエゴセントリックな映像と視線データを用いた。
次に、畳み込みニューラルネットワーク(CNN)モデルを用いて、幼児の視点から感覚データを処理し、スクラッチから名前とオブジェクトの関連を学習した。
本研究は,幼児期の単語学習をシミュレートするために生のエゴセントリックビデオを利用する最初のモデルとして,早期語学習の問題を解くことができるという原理の証明を提供する。
論文 参考訳(メタデータ) (2020-06-04T12:08:44Z) - Retinopathy of Prematurity Stage Diagnosis Using Object Segmentation and
Convolutional Neural Networks [68.96150598294072]
未熟児網膜症(英: Retinopathy of Prematurity、ROP)は、主に体重の低い未熟児に影響を及ぼす眼疾患である。
網膜の血管の増殖を招き、視力喪失を招き、最終的には網膜剥離を招き、失明を引き起こす。
近年,ディープラーニングを用いて診断を自動化する試みが盛んに行われている。
本稿では,従来のモデルの成功を基盤として,オブジェクトセグメンテーションと畳み込みニューラルネットワーク(CNN)を組み合わせた新しいアーキテクチャを開発する。
提案システムでは,まず対象分割モデルを訓練し,画素レベルでの区切り線を識別し,その結果のマスクを追加の"カラー"チャネルとして付加する。
論文 参考訳(メタデータ) (2020-04-03T14:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。