論文の概要: Simulated Cortical Magnification Supports Self-Supervised Object Learning
- arxiv url: http://arxiv.org/abs/2509.15751v1
- Date: Fri, 19 Sep 2025 08:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.077904
- Title: Simulated Cortical Magnification Supports Self-Supervised Object Learning
- Title(参考訳): Simulated Cortical Magnification for Self-Supervised Object Learning
- Authors: Zhengyang Yu, Arthur Aubret, Chen Yu, Jochen Triesch,
- Abstract要約: 近年の自己教師型学習モデルでは,幼児と同様の視覚的体験を訓練することで,意味オブジェクト表現の発達をシミュレートしている。
本稿では,オブジェクト表現の発達において,この様々な解決法が果たす役割について考察する。
- 参考スコア(独自算出の注目度): 8.07351541700131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent self-supervised learning models simulate the development of semantic object representations by training on visual experience similar to that of toddlers. However, these models ignore the foveated nature of human vision with high/low resolution in the center/periphery of the visual field. Here, we investigate the role of this varying resolution in the development of object representations. We leverage two datasets of egocentric videos that capture the visual experience of humans during interactions with objects. We apply models of human foveation and cortical magnification to modify these inputs, such that the visual content becomes less distinct towards the periphery. The resulting sequences are used to train two bio-inspired self-supervised learning models that implement a time-based learning objective. Our results show that modeling aspects of foveated vision improves the quality of the learned object representations in this setting. Our analysis suggests that this improvement comes from making objects appear bigger and inducing a better trade-off between central and peripheral visual information. Overall, this work takes a step towards making models of humans' learning of visual representations more realistic and performant.
- Abstract(参考訳): 近年の自己教師型学習モデルでは,幼児と同様の視覚的体験を訓練することで,意味オブジェクト表現の発達をシミュレートしている。
しかし、これらのモデルでは、視野の中心/周囲に高解像度/低解像度の人間の視覚が織り込まれていることを無視する。
本稿では,オブジェクト表現の発達において,この様々な解決法が果たす役割について考察する。
私たちは、オブジェクトとのインタラクション中に人間の視覚的体験をキャプチャする、エゴセントリックなビデオの2つのデータセットを活用します。
視覚的内容が周囲に対して不明瞭になるように、これらの入力を修正するために、人間の触覚と皮質拡大のモデルを適用します。
得られたシーケンスは、時間ベースの学習目的を実装する2つのバイオインスパイアされた自己教師付き学習モデルを訓練するために使用される。
本研究は, 視覚のモデル化により, 学習対象の表現の質が向上することを示す。
我々の分析では、この改善は物体がより大きく見えるようになり、中心的な視覚情報と周辺的な視覚情報とのトレードオフが改善されることを示唆している。
全体として、この研究は人間の視覚表現の学習をより現実的でパフォーマンス的にするための一歩を踏み出した。
関連論文リスト
- Testing the Limits of Fine-Tuning for Improving Visual Cognition in Vision Language Models [51.58859621164201]
視覚認知タスクにおける視覚刺激と人間の判断を導入し,認知領域間でのパフォーマンスを評価する。
我々は、直感的な物理と因果推論のために、地上の真理データに基づいてモデルを微調整する。
タスク固有の微調整は、他の視覚的特徴を持つデータに対する堅牢な人間ライクな一般化に寄与しない。
論文 参考訳(メタデータ) (2025-02-21T18:58:30Z) - Human Gaze Boosts Object-Centered Representation Learning [7.473473243713322]
近年の自己教師型学習モデルでは、人間に比べて画像認識のタスクにおいて、人間のような自我中心の視覚入力が著しく劣っている。
本稿では,中心的な視覚情報に焦点を合わせることで,自己中心型視覚学習が促進されるかどうかを検討する。
我々の実験は、中心的なビジョンに焦点を合わせることで、オブジェクト中心の表現がより良くなることを示した。
論文 参考訳(メタデータ) (2025-01-06T12:21:40Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Learning high-level visual representations from a child's perspective
without strong inductive biases [21.466000613898988]
我々は、子どもの視覚体験のリアルなプロキシ上で、明示的な監督なしに最先端のニューラルネットワークを訓練する。
埋め込みモデルと生成モデルの両方を、1人の子供から200時間のヘッドカムビデオでトレーニングします。
同じデータで訓練された生成モデルは、部分的にマスキングされたオブジェクトの単純な性質を外挿することに成功しました。
論文 参考訳(メタデータ) (2023-05-24T17:26:59Z) - Understanding Self-Supervised Pretraining with Part-Aware Representation
Learning [88.45460880824376]
本研究では,自己教師型表現事前学習手法がパート認識表現を学習する能力について検討する。
その結果,完全教師付きモデルはオブジェクトレベルの認識において自己教師付きモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-01-27T18:58:42Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Visualizing and Understanding Contrastive Learning [22.553990823550784]
一対のイメージから類似性学習タスクを理解するのに寄与する視覚的説明法を設計する。
また、画像分類システムの視覚的説明を評価するために用いられる既存のメトリクスを、一対の説明に適合させる。
論文 参考訳(メタデータ) (2022-06-20T13:01:46Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Embodied vision for learning object representations [4.211128681972148]
幼児の視覚的統計は、親しみやすい環境と新しい環境の両方において、物体認識の精度を向上させる。
この効果は、背景から抽出した特徴の減少、画像中の大きな特徴に対するニューラルネットワークバイアス、新奇な背景領域と慣れ親しんだ背景領域との類似性の向上によるものである、と我々は主張する。
論文 参考訳(メタデータ) (2022-05-12T16:36:27Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。