論文の概要: Does Vision Accelerate Hierarchical Generalization in Neural Language Learners?
- arxiv url: http://arxiv.org/abs/2302.00667v2
- Date: Tue, 01 Oct 2024 16:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:00.177109
- Title: Does Vision Accelerate Hierarchical Generalization in Neural Language Learners?
- Title(参考訳): 視覚はニューラルネットワーク学習者の階層的一般化を促進するか?
- Authors: Tatsuki Kuribayashi, Timothy Baldwin,
- Abstract要約: 本研究では、基底言語習得の利点、特に視覚情報がニューラル言語モデル(LM)の構文一般化に与える影響について検討する。
実験の結果,言語的要素と視覚的要素のアライメントが明確であれば,視覚データへのアクセスはLMの構文的一般化に役立つが,そうでなければ視覚的入力は役に立たないことがわかった。
これは、相互の視線のような追加のバイアスや信号の必要性を強調し、クロスモーダルアライメントを強化し、マルチモーダルLMにおける効率的な統語的一般化を可能にする。
- 参考スコア(独自算出の注目度): 32.9355090864485
- License:
- Abstract: Neural language models (LMs) are arguably less data-efficient than humans from a language acquisition perspective. One fundamental question is why this human-LM gap arises. This study explores the advantage of grounded language acquisition, specifically the impact of visual information -- which humans can usually rely on but LMs largely do not have access to during language acquisition -- on syntactic generalization in LMs. Our experiments, following the poverty of stimulus paradigm under two scenarios (using artificial vs. naturalistic images), demonstrate that if the alignments between the linguistic and visual components are clear in the input, access to vision data does help with the syntactic generalization of LMs, but if not, visual input does not help. This highlights the need for additional biases or signals, such as mutual gaze, to enhance cross-modal alignment and enable efficient syntactic generalization in multimodal LMs.
- Abstract(参考訳): ニューラル言語モデル(LM)は、言語習得の観点から、人間よりも明らかにデータ効率が低い。
根本的な疑問は、なぜ人間とLMのギャップが生じるのかである。
本研究は,言語習得における言語習得の利点,特に人間が通常頼りにできる視覚情報の影響について検討する。
我々の実験は、2つのシナリオ(人工的対自然主義的画像を用いた)における刺激パラダイムの欠如に続き、言語的成分と視覚的成分のアライメントが入力において明確である場合、視覚データへのアクセスはLMの構文的一般化に役立つが、そうでなければ視覚的入力は役に立たないことを示した。
これは、相互の視線のような追加のバイアスや信号の必要性を強調し、クロスモーダルアライメントを強化し、マルチモーダルLMにおける効率的な統語的一般化を可能にする。
関連論文リスト
- Exploring Spatial Schema Intuitions in Large Language and Vision Models [8.944921398608063]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。
驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。
本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文 参考訳(メタデータ) (2024-02-01T19:25:50Z) - Divergences between Language Models and Human Brains [63.405788999891335]
最近の研究は、言語モデルの内部表現(LM)を用いて脳信号が効果的に予測できることを示唆している。
我々は、LMと人間が言語をどのように表現し、使用するかに明確な違いがあることを示します。
我々は、社会的・情緒的知性と身体的常識という、LMによってうまく捉えられていない2つの領域を識別する。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - CoVLM: Composing Visual Entities and Relationships in Large Language
Models Via Communicative Decoding [66.52659447360104]
CoVLM は LLM を誘導して、テキスト間の視覚的実体と関係を明示的に構成することができる。
テキスト間の視覚的実体と関係を明示的に構成するために,LLM をガイドする CoVLM を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:59:44Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Tackling Vision Language Tasks Through Learning Inner Monologues [10.795616787372625]
本稿では,複雑な視覚言語問題を解くために,内部モノローグ多モード最適化(IMMO)を提案する。
IMMOは内的モノローグ過程をシミュレートする。
その結果、IMMOは推論能力と説明能力を高め、視覚モデルと言語モデルのより効果的な融合に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-08-19T10:10:49Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Context Limitations Make Neural Language Models More Human-Like [32.488137777336036]
インクリメンタルな文処理において,現代のニューラル言語モデル(LM)と人間とのコンテキストアクセスの相違を示す。
LMが人間の読書行動をより良くシミュレートするためには、追加のコンテキスト制限が必要だった。
また, メモリアクセスにおけるヒトとLMのギャップは, 特定の構文構造と関連していることを示した。
論文 参考訳(メタデータ) (2022-05-23T17:01:13Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Presentation and Analysis of a Multimodal Dataset for Grounded Language
Learning [32.28310581819443]
接地的な言語習得は、言語に基づく相互作用が周囲の世界をどのように参照するかを学ぶことを伴う。
実際には、学習に使用されるデータは、実際の人間のインタラクションよりもクリーンで、クリアで、文法的な傾向があります。
本稿では,話し言葉と書き言葉を併用した家庭内共通物体のデータセットについて述べる。
論文 参考訳(メタデータ) (2020-07-29T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。