論文の概要: Learning the meanings of function words from grounded language using a visual question answering model
- arxiv url: http://arxiv.org/abs/2308.08628v3
- Date: Mon, 22 Apr 2024 19:00:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 20:04:56.908371
- Title: Learning the meanings of function words from grounded language using a visual question answering model
- Title(参考訳): 視覚的質問応答モデルを用いた接地言語からの関数語の意味学習
- Authors: Eva Portelance, Michael C. Frank, Dan Jurafsky,
- Abstract要約: 近年のニューラルネットワークに基づく視覚的質問応答モデルでは,複雑な視覚シーンに関する質問に対する回答の一部として,関数語の使用を学習できることが示されている。
これらのモデルが論理的結合の意味を学べることや、論理的推論に関する事前の知識がないことが分かりました。
本研究は,視覚的に理解された文脈において,機能単語のニュアンス解釈を学習することが可能であることを示す。
- 参考スコア(独自算出の注目度): 28.10687343493772
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Interpreting a seemingly-simple function word like "or", "behind", or "more" can require logical, numerical, and relational reasoning. How are such words learned by children? Prior acquisition theories have often relied on positing a foundation of innate knowledge. Yet recent neural-network based visual question answering models apparently can learn to use function words as part of answering questions about complex visual scenes. In this paper, we study what these models learn about function words, in the hope of better understanding how the meanings of these words can be learnt by both models and children. We show that recurrent models trained on visually grounded language learn gradient semantics for function words requiring spatial and numerical reasoning. Furthermore, we find that these models can learn the meanings of logical connectives and and or without any prior knowledge of logical reasoning, as well as early evidence that they are sensitive to alternative expressions when interpreting language. Finally, we show that word learning difficulty is dependent on frequency in models' input. Our findings offer proof-of-concept evidence that it is possible to learn the nuanced interpretations of function words in visually grounded context by using non-symbolic general statistical learning algorithms, without any prior knowledge of linguistic meaning.
- Abstract(参考訳): 単に「or」や「behind」や「more」といった単純な関数を解釈するには、論理的、数値的、関係的推論が必要である。
そんな言葉は子供たちにどうやって覚えていますか。
以前の買収理論は、しばしば本質的な知識の基盤を提示することに頼っていた。
しかし、最近のニューラルネットワークベースの視覚的質問応答モデルでは、複雑な視覚シーンに関する質問に対する答えの一部として関数語を使うことを学ぶことができるようだ。
本稿では,これらのモデルが機能的単語について何を学べるかを,モデルと子供の両方がこれらの単語の意味をどのように学べるかをよりよく理解するために検討する。
本研究では,空間的および数値的推論を必要とする関数語に対して,視覚的基底言語で訓練された反復モデルで勾配意味を学習することを示す。
さらに,これらのモデルでは,論理的結合の意味を学習し,論理的論理的推論の事前知識を欠くだけでなく,言語を解釈する際の代替表現に敏感であるという早期の証拠も得られている。
最後に,単語学習の難易度はモデルの入力頻度に依存することを示す。
本研究は,非記号的一般統計学習アルゴリズムを用いて,言語的意味の知識を必要とせず,視覚的文脈で関数語のニュアンス解釈を学習できることを示す。
関連論文リスト
- Reframing linguistic bootstrapping as joint inference using visually-grounded grammar induction models [31.006803764376475]
意味的・統語的ブートストラッピング・ポジトリ(Semantic and Syntactic bootstrapping posit)とは、子供が特定の言語領域についての事前の知識、例えば構文的関係(syntactic relations)を使い、後に新しい単語の意味などの他の知識を取得する手助けをするものである。
ここでは、両者が、言語習得のためのより一般的な学習戦略である共同学習に固執していると論じる。
一連の視覚的文法帰納モデルを用いて,構文と意味が同時に学習された場合に,構文的および意味的ブートストラップ効果が最強であることが実証された。
論文 参考訳(メタデータ) (2024-06-17T18:01:06Z) - A model of early word acquisition based on realistic-scale audiovisual naming events [10.047470656294333]
音声知覚入力における正規性からの統計的学習により,早期語が獲得できる範囲について検討した。
生音声の統計的規則性や画素レベルの視覚入力から学習するモデルを用いて,12ヵ月までの幼児の語学学習を現実的な環境でシミュレーションした。
以上の結果から, 幼児期と同等の語彙成長速度で, 単語の認識とそれに対応する視覚オブジェクトの関連付けを効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2024-06-07T21:05:59Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Why can neural language models solve next-word prediction? A
mathematical perspective [53.807657273043446]
本研究では,英語文の実例をモデル化するための形式言語群について検討する。
我々の証明は、ニューラルネットワークモデルにおける埋め込み層と完全に接続されたコンポーネントの異なる役割を強調します。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z) - Quantifying the Roles of Visual, Linguistic, and Visual-Linguistic
Complexity in Verb Acquisition [8.183763443800348]
我々は、事前学習された人工ニューラルネットワークから得られる単語の視覚的および言語的表現を用いる。
動詞の表現は一般的に、名詞の表現よりも領域内ではより可変であり、識別しにくいことが分かる。
視覚的可変性は、言語学習を内部的に推進する最強の要因であり、次いで視覚言語的アライメントと言語的可変性である。
論文 参考訳(メタデータ) (2023-04-05T15:08:21Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Seeing the advantage: visually grounding word embeddings to better
capture human semantic knowledge [8.208534667678792]
分布意味モデルは、多くの自然言語処理タスクで有用な単語レベルの意味をキャプチャする。
我々は、英語のテキストと画像を組み合わせて視覚的に接地した単語埋め込みを作成し、それらを人気のあるテキストベース手法と比較する。
我々の分析では、視覚的に接地された埋め込み類似性は、純粋にテキストベースの埋め込みよりも人間の反応時間を予測することが示されている。
論文 参考訳(メタデータ) (2022-02-21T15:13:48Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z) - What is Learned in Visually Grounded Neural Syntax Acquisition [118.6461386981381]
本稿では,視覚的接地型ニューラルシンタクス学習者のケーススタディについて考察する。
モデルの簡易バージョンを構築することにより、モデルの強い性能をもたらすコアファクタを分離する。
名詞具象性の単純な語彙信号がモデルの予測に主要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2020-05-04T17:32:20Z) - Learning word-referent mappings and concepts from raw inputs [18.681222155879656]
我々は、生画像と単語を入力として取り込む自己スーパービジョンを通じて、ゼロからトレーニングされたニューラルネットワークモデルを提案する。
モデルは、新規な単語インスタンスに一般化し、シーン内の単語の参照者を特定し、相互排他性の好みを示す。
論文 参考訳(メタデータ) (2020-03-12T02:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。