論文の概要: Learning the meanings of function words from grounded language using a
visual question answering model
- arxiv url: http://arxiv.org/abs/2308.08628v2
- Date: Mon, 29 Jan 2024 18:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 22:21:58.342446
- Title: Learning the meanings of function words from grounded language using a
visual question answering model
- Title(参考訳): 視覚的質問応答モデルを用いた接地言語からの関数語の意味学習
- Authors: Eva Portelance and Michael C. Frank and Dan Jurafsky
- Abstract要約: 近年のニューラルネットワークに基づく視覚的質問応答モデルでは,複雑な視覚シーンに関する質問に対する回答の一部として,関数語の使用を学習できることが示されている。
これらのモデルは、論理的推論に関する事前の知識なしに、論理的連結性(and)と「or」の意味を学習することができる。
本研究は,視覚的に理解された文脈において,機能単語のニュアンス解釈を学習することが可能であることを示す。
- 参考スコア(独自算出の注目度): 31.589309014191244
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Interpreting a seemingly-simple function word like "or", "behind", or "more"
can require logical, numerical, and relational reasoning. How are such words
learned by children? Prior acquisition theories have often relied on positing a
foundation of innate knowledge. Yet recent neural-network based visual question
answering models apparently can learn to use function words as part of
answering questions about complex visual scenes. In this paper, we study what
these models learn about function words, in the hope of better understanding
how the meanings of these words can be learnt by both models and children. We
show that recurrent models trained on visually grounded language learn gradient
semantics for function words requiring spacial and numerical reasoning.
Furthermore, we find that these models can learn the meanings of logical
connectives "and" and "or" without any prior knowledge of logical reasoning, as
well as early evidence that they are sensitive to alternative expressions when
interpreting language. Finally, we show that word learning difficulty is
dependent on frequency in models' input. Our findings offer proof-of-concept
evidence that it is possible to learn the nuanced interpretations of function
words in visually grounded context by using non-symbolic general statistical
learning algorithms, without any prior knowledge of linguistic meaning.
- Abstract(参考訳): or"、"behind"、"more"のような一見単純な関数語を解釈するには、論理的、数値的、関係的推論が必要である。
その言葉は子供にどのように学べますか。
以前の買収理論は、しばしば本質的な知識の基礎を与えることに頼っていた。
しかし、最近のニューラルネットワークベースのビジュアル質問応答モデルは、複雑な視覚シーンに関する質問に答えるの一部として関数語を使うことを学ぶことができる。
本稿では,これらのモデルが機能語について何を学んでいるのかを,モデルと子供の両方でどのように学習できるのか理解を深めるために検討する。
視覚接地言語で学習した反復モデルでは,空間的・数値的推論を必要とする関数語の勾配意味論を学習する。
さらに,これらのモデルでは,論理的推論の事前の知識がなくても,論理的結合詞「and」と「or」の意味を学習でき,また,言語解釈の際の代替表現に敏感な初期の証拠が得られている。
最後に,単語学習の難しさはモデルの入力頻度に依存することを示す。
本研究は,非記号型一般統計学習アルゴリズムを用いて,言語的意味の事前知識を使わずに,機能語のニュアンス的解釈を視覚的に学習できることを示す。
関連論文リスト
- Reframing linguistic bootstrapping as joint inference using visually-grounded grammar induction models [31.006803764376475]
意味的・統語的ブートストラッピング・ポジトリ(Semantic and Syntactic bootstrapping posit)とは、子供が特定の言語領域についての事前の知識、例えば構文的関係(syntactic relations)を使い、後に新しい単語の意味などの他の知識を取得する手助けをするものである。
ここでは、両者が、言語習得のためのより一般的な学習戦略である共同学習に固執していると論じる。
一連の視覚的文法帰納モデルを用いて,構文と意味が同時に学習された場合に,構文的および意味的ブートストラップ効果が最強であることが実証された。
論文 参考訳(メタデータ) (2024-06-17T18:01:06Z) - A model of early word acquisition based on realistic-scale audiovisual naming events [10.047470656294333]
音声知覚入力における正規性からの統計的学習により,早期語が獲得できる範囲について検討した。
生音声の統計的規則性や画素レベルの視覚入力から学習するモデルを用いて,12ヵ月までの幼児の語学学習を現実的な環境でシミュレーションした。
以上の結果から, 幼児期と同等の語彙成長速度で, 単語の認識とそれに対応する視覚オブジェクトの関連付けを効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2024-06-07T21:05:59Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Why can neural language models solve next-word prediction? A
mathematical perspective [53.807657273043446]
本研究では,英語文の実例をモデル化するための形式言語群について検討する。
我々の証明は、ニューラルネットワークモデルにおける埋め込み層と完全に接続されたコンポーネントの異なる役割を強調します。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z) - Quantifying the Roles of Visual, Linguistic, and Visual-Linguistic
Complexity in Verb Acquisition [8.183763443800348]
我々は、事前学習された人工ニューラルネットワークから得られる単語の視覚的および言語的表現を用いる。
動詞の表現は一般的に、名詞の表現よりも領域内ではより可変であり、識別しにくいことが分かる。
視覚的可変性は、言語学習を内部的に推進する最強の要因であり、次いで視覚言語的アライメントと言語的可変性である。
論文 参考訳(メタデータ) (2023-04-05T15:08:21Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Seeing the advantage: visually grounding word embeddings to better
capture human semantic knowledge [8.208534667678792]
分布意味モデルは、多くの自然言語処理タスクで有用な単語レベルの意味をキャプチャする。
我々は、英語のテキストと画像を組み合わせて視覚的に接地した単語埋め込みを作成し、それらを人気のあるテキストベース手法と比較する。
我々の分析では、視覚的に接地された埋め込み類似性は、純粋にテキストベースの埋め込みよりも人間の反応時間を予測することが示されている。
論文 参考訳(メタデータ) (2022-02-21T15:13:48Z) - Provable Limitations of Acquiring Meaning from Ungrounded Form: What
will Future Language Models Understand? [87.20342701232869]
未知のシステムが意味を習得する能力について検討する。
アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。
言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。
しかし、言語が変数バインディングのような非透過的なパターンを使用する場合、エミュレーションは計算不能な問題になる可能性がある。
論文 参考訳(メタデータ) (2021-04-22T01:00:17Z) - What is Learned in Visually Grounded Neural Syntax Acquisition [118.6461386981381]
本稿では,視覚的接地型ニューラルシンタクス学習者のケーススタディについて考察する。
モデルの簡易バージョンを構築することにより、モデルの強い性能をもたらすコアファクタを分離する。
名詞具象性の単純な語彙信号がモデルの予測に主要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2020-05-04T17:32:20Z) - Learning word-referent mappings and concepts from raw inputs [18.681222155879656]
我々は、生画像と単語を入力として取り込む自己スーパービジョンを通じて、ゼロからトレーニングされたニューラルネットワークモデルを提案する。
モデルは、新規な単語インスタンスに一般化し、シーン内の単語の参照者を特定し、相互排他性の好みを示す。
論文 参考訳(メタデータ) (2020-03-12T02:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。