論文の概要: Discovering Hidden Visual Concepts Beyond Linguistic Input in Infant Learning
- arxiv url: http://arxiv.org/abs/2501.05205v4
- Date: Tue, 25 Mar 2025 07:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 19:42:57.528719
- Title: Discovering Hidden Visual Concepts Beyond Linguistic Input in Infant Learning
- Title(参考訳): 幼児学習における言語入力以外の隠れた視覚概念の発見
- Authors: Xueyi Ke, Satoshi Tsutsui, Yayun Zhang, Bihan Wen,
- Abstract要約: コンピュータビジョンが人間の視覚システムを再現しようとすると、幼児の視覚発達を理解することは貴重な洞察を与えるかもしれない。
本稿では,この問題を探求する学際的研究について述べる。
幼児の学習過程を模倣する計算モデルは、幼児が自然に学ぶのと同じように、より広い視覚概念を発達させることができるか?
我々の研究は、幼児の視覚的および言語的入力に基づいて訓練された計算モデルの内部表現を分析することによって、認知科学とコンピュータビジョンを橋渡しする。
- 参考スコア(独自算出の注目度): 18.43931715859825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infants develop complex visual understanding rapidly, even preceding the acquisition of linguistic skills. As computer vision seeks to replicate the human vision system, understanding infant visual development may offer valuable insights. In this paper, we present an interdisciplinary study exploring this question: can a computational model that imitates the infant learning process develop broader visual concepts that extend beyond the vocabulary it has heard, similar to how infants naturally learn? To investigate this, we analyze a recently published model in Science by Vong et al., which is trained on longitudinal, egocentric images of a single child paired with transcribed parental speech. We perform neuron labeling to identify visual concept neurons hidden in the model's internal representations. We then demonstrate that these neurons can recognize objects beyond the model's original vocabulary. Furthermore, we compare the differences in representation between infant models and those in modern computer vision models, such as CLIP and ImageNet pre-trained model. Ultimately, our work bridges cognitive science and computer vision by analyzing the internal representations of a computational model trained on an infant visual and linguistic inputs. Our code is available at https://github.com/Kexueyi/discover_infant_vis.
- Abstract(参考訳): 幼児は言語スキルの習得に先立っても、複雑な視覚的理解を急速に発展させる。
コンピュータビジョンが人間の視覚システムを再現しようとすると、幼児の視覚発達を理解することは貴重な洞察を与えるかもしれない。
本稿では,幼児の学習過程を模倣する計算モデルが,幼児が自然に学習するのと同様の語彙を超えて,より広い視覚概念を発達させることができるか,という課題を考察する学際的研究を紹介する。
そこで本研究では,Vong et al が最近発表した「Science in Science」モデルについて分析した。
我々は、モデルの内部表現に隠された視覚概念ニューロンを特定するためにニューロンラベリングを行う。
次に、これらのニューロンがモデルの本来の語彙を超える物体を認識できることを実証する。
さらに、幼児モデルとCLIPやImageNet事前学習モデルのような現代のコンピュータビジョンモデルにおける表現の違いを比較する。
最終的に、私たちの研究は、幼児の視覚的および言語的入力に基づいて訓練された計算モデルの内部表現を分析することによって、認知科学とコンピュータビジョンを橋渡しします。
私たちのコードはhttps://github.com/Kexueyi/discover_infant_visで利用可能です。
関連論文リスト
- Active Gaze Behavior Boosts Self-Supervised Object Learning [4.612042044544857]
本研究では, 視覚学習モデルを用いて, 幼児の視線行動を利用した視点不変物体認識の開発が可能であるかを検討した。
幼児の視線戦略が不変物体表現の学習を支援することを示す実験を行った。
本研究は,幼児の視線行動が視覚不変物体認識の自己教師付き学習を支援する方法を明らかにする。
論文 参考訳(メタデータ) (2024-11-04T10:44:46Z) - Using Multimodal Deep Neural Networks to Disentangle Language from Visual Aesthetics [8.749640179057469]
我々は、自然画像の人間の美的評価を予測するために、ユニモーダル視覚、ユニモーダル言語、マルチモーダルディープニューラルネットワーク(DNN)モデルの学習表現に対する線形復号を用いる。
言語対応型視覚モデル(SLIPなど)は, 単言語型視覚モデル(SimCLRなど)では, 言語対応の視覚モデル(SLIPなど)では, 単言語型視覚と比較して小さな利得が得られている。
まとめると、これらの結果は、最終的に我々が美の体験を説明するために見つかるであろう言葉が何であれ、フィードフォワードの知覚の計算は、その経験に十分な基礎を与えるかもしれないことを示唆している。
論文 参考訳(メタデータ) (2024-10-31T03:37:21Z) - A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。
自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2024-01-03T18:09:33Z) - MIMo: A Multi-Modal Infant Model for Studying Cognitive Development [3.5009119465343033]
コンピュータシミュレーションによる早期認知発達研究のためのオープンソースの幼児モデルMIMoを提案する。
MIMOはその周囲を両眼視、前庭系、前立腺、そして全身の仮想皮膚を通して知覚する。
論文 参考訳(メタデータ) (2023-12-07T14:21:31Z) - Caregiver Talk Shapes Toddler Vision: A Computational Study of Dyadic
Play [8.164232628099619]
本稿では, ディヤドプレイにおける視覚表現学習の計算モデルを提案する。
実介護者の統計値に一致した発話は, カテゴリー認識の改善を支援する表現を生じさせることを示す。
論文 参考訳(メタデータ) (2023-12-07T08:18:40Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - A Computational Model of Early Word Learning from the Infant's Point of
View [15.443815646555125]
本研究では,親との遊戯中に幼児の学習者から収集したエゴセントリックな映像と視線データを用いた。
次に、畳み込みニューラルネットワーク(CNN)モデルを用いて、幼児の視点から感覚データを処理し、スクラッチから名前とオブジェクトの関連を学習した。
本研究は,幼児期の単語学習をシミュレートするために生のエゴセントリックビデオを利用する最初のモデルとして,早期語学習の問題を解くことができるという原理の証明を提供する。
論文 参考訳(メタデータ) (2020-06-04T12:08:44Z) - A Developmental Neuro-Robotics Approach for Boosting the Recognition of
Handwritten Digits [91.3755431537592]
近年のエビデンスでは、子どもの体現戦略をシミュレーションすることで、マシンインテリジェンスも改善できることが示されている。
本稿では,発達神経ロボティクスの文脈における畳み込みニューラルネットワークモデルへの具体的戦略の適用について検討する。
論文 参考訳(メタデータ) (2020-03-23T14:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。