論文の概要: Does Vision Accelerate Hierarchical Generalization of Neural Language
Learners?
- arxiv url: http://arxiv.org/abs/2302.00667v1
- Date: Wed, 1 Feb 2023 18:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 16:49:05.396967
- Title: Does Vision Accelerate Hierarchical Generalization of Neural Language
Learners?
- Title(参考訳): 視覚はニューラルネットワーク学習者の階層的一般化を促進するか?
- Authors: Tatsuki Kuribayashi
- Abstract要約: LMの統語的一般化における視覚の優位性に向けた2つの実験を行った。
その結果,視覚は単純化された人工的な環境において適切な言語一般化を促進できたが,LMは騒音や現実的な環境に苦しんだ。
これらの混合結果は、例えば視覚が言語の習得を促進する可能性を示しているが、学習者の視覚的/言語的事前知識は必要である。
- 参考スコア(独自算出の注目度): 5.073880854565685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural language models (LMs) are arguably less data-efficient than humans --
why does this gap occur? In this study, we hypothesize that this gap stems from
the learners' accessibility to modalities other than text, specifically,
vision. We conducted two complementary experiments (using noisy, realistic data
and a simplified, artificial one) toward the advantage of vision in the
syntactic generalization of LMs. Our results showed that vision accelerated a
proper linguistic generalization in the simplified, artificial setting, but LMs
struggled with the noisy, realistic setting. These mixed results indicate
several possibilities, e.g., vision can potentially boost language acquisition,
but learners' additional visual/linguistic prior knowledge should be needed to
robustly make use of raw images for efficient language acquisition.
- Abstract(参考訳): ニューラルネットワークモデル(LM)は、人間よりも間違いなくデータ効率が低い - なぜこのギャップが生じるのか?
本研究では,このギャップは,テキスト,特に視覚以外のモダリティへの学習者のアクセシビリティに起因していると仮定する。
LMの統語的一般化における視覚の利点を活かした2つの相補的な実験(ノイズ、現実的データ、単純化された人工的な実験)を行った。
その結果、視覚は単純で人工的な設定で適切な言語一般化を加速したが、lmsはノイズの多い現実的な設定に苦しんだ。
これらの混合結果は、例えば視覚によって言語習得が促進される可能性を示すが、学習者の視覚的・言語的事前知識の追加は、効率的な言語獲得のために生画像を堅牢に利用するために必要である。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Exploring Spatial Schema Intuitions in Large Language and Vision Models [8.944921398608063]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。
驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。
本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文 参考訳(メタデータ) (2024-02-01T19:25:50Z) - Divergences between Language Models and Human Brains [63.405788999891335]
最近の研究は、言語モデルの内部表現(LM)を用いて脳信号が効果的に予測できることを示唆している。
我々は、LMと人間が言語をどのように表現し、使用するかに明確な違いがあることを示します。
我々は、社会的・情緒的知性と身体的常識という、LMによってうまく捉えられていない2つの領域を識別する。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - CoVLM: Composing Visual Entities and Relationships in Large Language
Models Via Communicative Decoding [66.52659447360104]
CoVLM は LLM を誘導して、テキスト間の視覚的実体と関係を明示的に構成することができる。
テキスト間の視覚的実体と関係を明示的に構成するために,LLM をガイドする CoVLM を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:59:44Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Tackling Vision Language Tasks Through Learning Inner Monologues [10.795616787372625]
本稿では,複雑な視覚言語問題を解くために,内部モノローグ多モード最適化(IMMO)を提案する。
IMMOは内的モノローグ過程をシミュレートする。
その結果、IMMOは推論能力と説明能力を高め、視覚モデルと言語モデルのより効果的な融合に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-08-19T10:10:49Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Context Limitations Make Neural Language Models More Human-Like [32.488137777336036]
インクリメンタルな文処理において,現代のニューラル言語モデル(LM)と人間とのコンテキストアクセスの相違を示す。
LMが人間の読書行動をより良くシミュレートするためには、追加のコンテキスト制限が必要だった。
また, メモリアクセスにおけるヒトとLMのギャップは, 特定の構文構造と関連していることを示した。
論文 参考訳(メタデータ) (2022-05-23T17:01:13Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Presentation and Analysis of a Multimodal Dataset for Grounded Language
Learning [32.28310581819443]
接地的な言語習得は、言語に基づく相互作用が周囲の世界をどのように参照するかを学ぶことを伴う。
実際には、学習に使用されるデータは、実際の人間のインタラクションよりもクリーンで、クリアで、文法的な傾向があります。
本稿では,話し言葉と書き言葉を併用した家庭内共通物体のデータセットについて述べる。
論文 参考訳(メタデータ) (2020-07-29T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。