論文の概要: Do Blind Spots Matter for Word-Referent Mapping? A Computational Study with Infant Egocentric Video
- arxiv url: http://arxiv.org/abs/2511.11725v1
- Date: Thu, 13 Nov 2025 04:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.17999
- Title: Do Blind Spots Matter for Word-Referent Mapping? A Computational Study with Infant Egocentric Video
- Title(参考訳): 単語参照マッピングにおけるブラインドスポットは重要か? : 乳児中心型ビデオを用いた計算的検討
- Authors: Zekai Shi, Zhixi Cai, Kalin Stefanov,
- Abstract要約: 子どもたちは6ヶ月から9ヶ月の間に最初の言葉を学び始めます。
事前の知識がなければ、初めて遭遇した単語は数え切れないほど解釈できる。
本稿では,強い視覚表現を学習するための,自己監督的かつ生物学的に妥当な戦略を提案する。
- 参考スコア(独自算出の注目度): 5.419344998705856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typically, children start to learn their first words between 6 and 9 months, linking spoken utterances to their visual referents. Without prior knowledge, a word encountered for the first time can be interpreted in countless ways; it might refer to any of the objects in the environment, their components, or attributes. Using longitudinal, egocentric, and ecologically valid data from the experience of one child, in this work, we propose a self-supervised and biologically plausible strategy to learn strong visual representations. Our masked autoencoder-based visual backbone incorporates knowledge about the blind spot in human eyes to define a novel masking strategy. This mask and reconstruct approach attempts to mimic the way the human brain fills the gaps in the eyes' field of view. This represents a significant shift from standard random masking strategies, which are difficult to justify from a biological perspective. The pretrained encoder is utilized in a contrastive learning-based video-text model capable of acquiring word-referent mappings. Extensive evaluation suggests that the proposed biologically plausible masking strategy is at least as effective as random masking for learning word-referent mappings from cross-situational and temporally extended episodes.
- Abstract(参考訳): 通常、子どもたちは6ヶ月から9ヶ月の間に最初の単語を学習し始め、話し言葉を視覚的参照者とリンクする。
事前の知識がなければ、初めて遭遇した単語は数え切れないほど多くの方法で解釈できる。
本研究では, ある子どもの経験から得られた縦断的, 自我的, 生態学的に有効なデータを用いて, 強い視覚表現を学習するための自己監督的, 生物学的に妥当な戦略を提案する。
我々のマスク付きオートエンコーダをベースとした視覚バックボーンは、人間の目の盲点に関する知識を取り入れて、新しいマスキング戦略を定義します。
このマスクと再構成アプローチは、人間の脳が目の視野の隙間を埋める方法を模倣しようとする。
これは、生物学的観点からは正当化が難しい標準的なランダムマスキング戦略から大きな変化を示している。
事前学習されたエンコーダは、単語参照マッピングを取得することができる対照的な学習ベースのビデオテキストモデルで利用される。
広範に評価した結果,提案手法は,時間的・縦断的なエピソードから単語参照マッピングを学習する上で,少なくともランダムマスキングと同じくらい効果的であることが示唆された。
関連論文リスト
- Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding [45.248265283405004]
現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。
本稿では、VLMの説明可能性マップを用いて、適切な画像特徴を識別する病原体認識プロンプト(DAP)を提案する。
DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
論文 参考訳(メタデータ) (2025-05-21T05:16:45Z) - Learning Knowledge-based Prompts for Robust 3D Mask Presentation Attack Detection [71.60120616284246]
本稿では,3次元マスク提示攻撃検出のための視覚言語モデルの強力な一般化能力を検討するための,知識に基づく新しいプロンプト学習フレームワークを提案する。
実験により,提案手法は最先端のシナリオ内およびクロスシナリオ検出性能を実現することを示す。
論文 参考訳(メタデータ) (2025-05-06T15:09:23Z) - Discovering Hidden Visual Concepts Beyond Linguistic Input in Infant Learning [18.43931715859825]
コンピュータビジョンが人間の視覚システムを再現しようとすると、幼児の視覚発達を理解することは貴重な洞察を与えるかもしれない。
本稿では,この問題を探求する学際的研究について述べる。
Vongらによる最近発表されたScienceのモデルを分析する。
これらのニューロンは、モデルの本来の語彙を超えた物体を認識できることを実証する。
論文 参考訳(メタデータ) (2025-01-09T12:55:55Z) - In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Caregiver Talk Shapes Toddler Vision: A Computational Study of Dyadic
Play [8.164232628099619]
本稿では, ディヤドプレイにおける視覚表現学習の計算モデルを提案する。
実介護者の統計値に一致した発話は, カテゴリー認識の改善を支援する表現を生じさせることを示す。
論文 参考訳(メタデータ) (2023-12-07T08:18:40Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Transferable Visual Words: Exploiting the Semantics of Anatomical
Patterns for Self-supervised Learning [6.569456721086925]
Transferable Visual Word (TransVW) は、医学的画像解析における深層学習のためのアノテーション効率の実現を目指している。
自己発見による解剖学的整合性に応じて,これらの視覚的単語を自動抽出できることが示される。
TransVWのアノテーション効率を実証し、より高性能で高速な収束を実現し、アノテーションコストを削減します。
論文 参考訳(メタデータ) (2021-02-21T20:44:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。