論文の概要: Predicting Word Learning in Children from the Performance of Computer
Vision Systems
- arxiv url: http://arxiv.org/abs/2207.09847v3
- Date: Sat, 9 Sep 2023 08:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 23:21:54.692423
- Title: Predicting Word Learning in Children from the Performance of Computer
Vision Systems
- Title(参考訳): コンピュータビジョンシステムの性能から子どもの単語学習を予測する
- Authors: Sunayana Rane, Mira L. Nencheva, Zeyu Wang, Casey Lew-Williams, Olga
Russakovsky, Thomas L. Griffiths
- Abstract要約: 本研究では,子どもが異なるカテゴリーの単語を習得する年齢が,視覚的分類とキャプションシステムの性能と相関していることを示す。
コンピュータビジョンシステムの性能は,子どもの単語学習の予測因子である単語の具体性についての人間の判断と相関する。
- 参考スコア(独自算出の注目度): 24.49899952381515
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: For human children as well as machine learning systems, a key challenge in
learning a word is linking the word to the visual phenomena it describes. We
explore this aspect of word learning by using the performance of computer
vision systems as a proxy for the difficulty of learning a word from visual
cues. We show that the age at which children acquire different categories of
words is correlated with the performance of visual classification and
captioning systems, over and above the expected effects of word frequency. The
performance of the computer vision systems is correlated with human judgments
of the concreteness of words, which are in turn a predictor of children's word
learning, suggesting that these models are capturing the relationship between
words and visual phenomena.
- Abstract(参考訳): 人間の子供や機械学習システムにとって、単語を学習する上で重要な課題は、単語を記述した視覚現象にリンクすることだ。
本稿では,コンピュータビジョンシステムの性能を,視覚手がかりから単語を学習することの難しさの指標として利用することで,単語学習のこの側面を検討する。
異なるカテゴリーの単語を取得する年齢は,単語頻度の期待効果を上回って,視覚分類や字幕システムの性能と相関することを示した。
コンピュータビジョンシステムの性能は、子どもの単語学習の予測因子である単語の具体性に関する人間の判断と相関しており、これらのモデルが単語と視覚現象の関係を捉えていることを示唆している。
関連論文リスト
- A model of early word acquisition based on realistic-scale audiovisual naming events [10.047470656294333]
音声知覚入力における正規性からの統計的学習により,早期語が獲得できる範囲について検討した。
生音声の統計的規則性や画素レベルの視覚入力から学習するモデルを用いて,12ヵ月までの幼児の語学学習を現実的な環境でシミュレーションした。
以上の結果から, 幼児期と同等の語彙成長速度で, 単語の認識とそれに対応する視覚オブジェクトの関連付けを効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2024-06-07T21:05:59Z) - Caregiver Talk Shapes Toddler Vision: A Computational Study of Dyadic
Play [8.164232628099619]
本稿では, ディヤドプレイにおける視覚表現学習の計算モデルを提案する。
実介護者の統計値に一致した発話は, カテゴリー認識の改善を支援する表現を生じさせることを示す。
論文 参考訳(メタデータ) (2023-12-07T08:18:40Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - MEWL: Few-shot multimodal word learning with referential uncertainty [24.94171567232573]
本研究では,マチンエ語学習ベンチマークを導入し,接地された視覚シーンにおいて,機械が単語の意味を学習する方法を評価する。
MEWLは、単語学習における人間のコア認知ツールキットをカバーしている。
マルチモーダルエージェントと非モーダルエージェントのパフォーマンスを比較分析して評価することにより,人・機械語学習における急激な違いに気づく。
論文 参考訳(メタデータ) (2023-06-01T09:54:31Z) - Cross-Modal Alignment Learning of Vision-Language Conceptual Systems [24.423011687551433]
幼児の単語学習メカニズムに触発された視覚言語概念体系を学習する手法を提案する。
提案モデルでは、視覚オブジェクトと単語の関連性をオンラインで学習し、徐々に相互関係グラフネットワークを構築している。
論文 参考訳(メタデータ) (2022-07-31T08:39:53Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - A Computational Model of Early Word Learning from the Infant's Point of
View [15.443815646555125]
本研究では,親との遊戯中に幼児の学習者から収集したエゴセントリックな映像と視線データを用いた。
次に、畳み込みニューラルネットワーク(CNN)モデルを用いて、幼児の視点から感覚データを処理し、スクラッチから名前とオブジェクトの関連を学習した。
本研究は,幼児期の単語学習をシミュレートするために生のエゴセントリックビデオを利用する最初のモデルとして,早期語学習の問題を解くことができるという原理の証明を提供する。
論文 参考訳(メタデータ) (2020-06-04T12:08:44Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。