論文の概要: MEWL: Few-shot multimodal word learning with referential uncertainty
- arxiv url: http://arxiv.org/abs/2306.00503v1
- Date: Thu, 1 Jun 2023 09:54:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 17:13:59.721145
- Title: MEWL: Few-shot multimodal word learning with referential uncertainty
- Title(参考訳): mewl: 参照的不確実性を伴う複数モーダル単語学習
- Authors: Guangyuan Jiang, Manjie Xu, Shiji Xin, Wei Liang, Yujia Peng, Chi
Zhang, Yixin Zhu
- Abstract要約: 本研究では,マチンエ語学習ベンチマークを導入し,接地された視覚シーンにおいて,機械が単語の意味を学習する方法を評価する。
MEWLは、単語学習における人間のコア認知ツールキットをカバーしている。
マルチモーダルエージェントと非モーダルエージェントのパフォーマンスを比較分析して評価することにより,人・機械語学習における急激な違いに気づく。
- 参考スコア(独自算出の注目度): 24.94171567232573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Without explicit feedback, humans can rapidly learn the meaning of words.
Children can acquire a new word after just a few passive exposures, a process
known as fast mapping. This word learning capability is believed to be the most
fundamental building block of multimodal understanding and reasoning. Despite
recent advancements in multimodal learning, a systematic and rigorous
evaluation is still missing for human-like word learning in machines. To fill
in this gap, we introduce the MachinE Word Learning (MEWL) benchmark to assess
how machines learn word meaning in grounded visual scenes. MEWL covers human's
core cognitive toolkits in word learning: cross-situational reasoning,
bootstrapping, and pragmatic learning. Specifically, MEWL is a few-shot
benchmark suite consisting of nine tasks for probing various word learning
capabilities. These tasks are carefully designed to be aligned with the
children's core abilities in word learning and echo the theories in the
developmental literature. By evaluating multimodal and unimodal agents'
performance with a comparative analysis of human performance, we notice a sharp
divergence in human and machine word learning. We further discuss these
differences between humans and machines and call for human-like few-shot word
learning in machines.
- Abstract(参考訳): 明示的なフィードバックがなければ、人間は言葉の意味を素早く学ぶことができる。
子どもたちは、いくつかの受動的露出(高速マッピングと呼ばれるプロセス)の後、新しい単語を取得できる。
この単語学習能力は、マルチモーダル理解と推論の最も基本的な構成要素であると考えられている。
近年のマルチモーダル学習の進歩にもかかわらず、機械における人間のような単語学習には体系的かつ厳密な評価が欠けている。
このギャップを埋めるために,機械学習(machine word learning, mewl)ベンチマークを導入する。
MEWLは、単語学習における人間のコア認知ツールキットをカバーしている。
具体的には、MEWLは、様々な単語学習能力を探索する9つのタスクからなる、数発のベンチマークスイートである。
これらの課題は、語学学習における子どものコア能力に適合するように慎重に設計され、発達文学における理論を反映している。
マルチモーダルエージェントと非モーダルエージェントのパフォーマンスを比較分析して評価することにより,人・機械語学習における急激な違いに気づく。
さらに、人間と機械の違いを議論し、機械における人間のような数発の単語学習を求める。
関連論文リスト
- Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Storyfier: Exploring Vocabulary Learning Support with Text Generation
Models [52.58844741797822]
本研究では,学習者の興味をひく対象語に対するコヒーレントな文脈を提供するために,Storyfierを開発した。
学習者は一般的に、生成したストーリーを目標語を接続し、学習負荷を緩和するための支援を書くのに好む。
読み書き学習セッションでは、AI機能のないベースラインツールで学習するよりも、Storyfierを使用する参加者は、リコールやターゲット語の使用でパフォーマンスが悪くなります。
論文 参考訳(メタデータ) (2023-08-07T18:25:00Z) - Human Inspired Progressive Alignment and Comparative Learning for
Grounded Word Acquisition [6.47452771256903]
我々は、人間の赤ちゃんが最初の言語をどのように習得するかからインスピレーションを得て、比較学習を通じて単語獲得のための計算プロセスを開発した。
認知的発見を動機として,様々な属性の類似点と相違点を計算モデルで比較できる小さなデータセットを作成した。
我々は、単語の獲得を情報フィルタリングのプロセスだけでなく、表現-シンボルマッピングにもとづいている。
論文 参考訳(メタデータ) (2023-07-05T19:38:04Z) - World-to-Words: Grounded Open Vocabulary Acquisition through Fast
Mapping in Vision-Language Models [6.47452771256903]
我々は,オープンワールド言語学習における接地とブートストラップを検討するために,GOVA(Grounded Open Vocabulary Acquisition)を導入した。
目的としてグラウンドを強調表示する画像テキストペアを事前学習することで、新しい視覚的グラウンド言語モデルであるオブジェクト指向BERT(OctoBERT)を提案する。
我々は,OctoBERTがよりコヒーレントで高速な接地単語学習者であり,事前学習中に得られた接地能力が,未知語をより迅速かつ堅牢に学習する上で有効であることを実証した。
論文 参考訳(メタデータ) (2023-06-14T18:10:05Z) - Computational Language Acquisition with Theory of Mind [84.2267302901888]
我々は、心の理論(ToM)を備えた言語学習エージェントを構築し、その学習過程への影響を測定する。
重み付けされたToMリスナーコンポーネントを用いた学習話者は,画像参照ゲームの設定において,性能向上につながることがわかった。
論文 参考訳(メタデータ) (2023-03-02T18:59:46Z) - What Artificial Neural Networks Can Tell Us About Human Language
Acquisition [47.761188531404066]
自然言語処理のための機械学習の急速な進歩は、人間がどのように言語を学ぶかについての議論を変革する可能性がある。
計算モデルによる学習可能性の関連性を高めるためには,人間に対して大きな優位性を持たず,モデル学習者を訓練する必要がある。
論文 参考訳(メタデータ) (2022-08-17T00:12:37Z) - Predicting Word Learning in Children from the Performance of Computer
Vision Systems [24.49899952381515]
本研究では,子どもが異なるカテゴリーの単語を習得する年齢が,視覚的分類とキャプションシステムの性能と相関していることを示す。
コンピュータビジョンシステムの性能は,子どもの単語学習の予測因子である単語の具体性についての人間の判断と相関する。
論文 参考訳(メタデータ) (2022-07-07T22:49:32Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Bongard-LOGO: A New Benchmark for Human-Level Concept Learning and
Reasoning [78.13740873213223]
ボナード問題(BP)は、インテリジェントシステムにおける視覚認知へのインスピレーションとして導入された。
我々は人間レベルの概念学習と推論のための新しいベンチマークBongard-LOGOを提案する。
論文 参考訳(メタデータ) (2020-10-02T03:19:46Z) - Using Known Words to Learn More Words: A Distributional Analysis of
Child Vocabulary Development [0.0]
分布統計の語彙特性を用いた語彙発達におけるアイテムベース変動について検討した。
単語軌跡を横断的に予測し,語彙発達の傾向に光を当てた。
また, 子どもが単語を知っているかどうかの最適な分布予測器は, 単語が共起する傾向にある他の単語の数であることを示す。
論文 参考訳(メタデータ) (2020-09-15T01:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。