Fugu-MT 論文翻訳(概要): Does Vision Accelerate Hierarchical Generalization of Neural Language Learners?

論文の概要: Does Vision Accelerate Hierarchical Generalization of Neural Language Learners?

arxiv url: http://arxiv.org/abs/2302.00667v1
Date: Wed, 1 Feb 2023 18:53:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-02 16:49:05.396967
Title: Does Vision Accelerate Hierarchical Generalization of Neural Language Learners?
Title（参考訳）: 視覚はニューラルネットワーク学習者の階層的一般化を促進するか?
Authors: Tatsuki Kuribayashi
Abstract要約: LMの統語的一般化における視覚の優位性に向けた2つの実験を行った。その結果,視覚は単純化された人工的な環境において適切な言語一般化を促進できたが,LMは騒音や現実的な環境に苦しんだ。これらの混合結果は、例えば視覚が言語の習得を促進する可能性を示しているが、学習者の視覚的/言語的事前知識は必要である。
参考スコア（独自算出の注目度）: 5.073880854565685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural language models (LMs) are arguably less data-efficient than humans -- why does this gap occur? In this study, we hypothesize that this gap stems from the learners' accessibility to modalities other than text, specifically, vision. We conducted two complementary experiments (using noisy, realistic data and a simplified, artificial one) toward the advantage of vision in the syntactic generalization of LMs. Our results showed that vision accelerated a proper linguistic generalization in the simplified, artificial setting, but LMs struggled with the noisy, realistic setting. These mixed results indicate several possibilities, e.g., vision can potentially boost language acquisition, but learners' additional visual/linguistic prior knowledge should be needed to robustly make use of raw images for efficient language acquisition.
Abstract（参考訳）: ニューラルネットワークモデル(LM)は、人間よりも間違いなくデータ効率が低い - なぜこのギャップが生じるのか? 本研究では,このギャップは,テキスト,特に視覚以外のモダリティへの学習者のアクセシビリティに起因していると仮定する。 LMの統語的一般化における視覚の利点を活かした2つの相補的な実験(ノイズ、現実的データ、単純化された人工的な実験)を行った。その結果、視覚は単純で人工的な設定で適切な言語一般化を加速したが、lmsはノイズの多い現実的な設定に苦しんだ。これらの混合結果は、例えば視覚によって言語習得が促進される可能性を示すが、学習者の視覚的・言語的事前知識の追加は、効率的な言語獲得のために生画像を堅牢に利用するために必要である。

関連論文リスト

MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。 MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文参考訳（メタデータ） (2025-05-24T11:49:31Z)
HoloLLM: Multisensory Foundation Model for Language-Grounded Human Sensing and Reasoning [14.038083767470019]
スマートホームで活動する身体エージェントは、多様な感覚入力を通じて人間の行動を理解し、自然言語を介してコミュニケーションする必要がある。本稿では,Multimodal Large Language Model (MLLM) であるHoloLLMを紹介する。また,HoloLLMは既存のMLLMよりも優れており,言語による人間の知覚精度を最大30%向上することを示した。
論文参考訳（メタデータ） (2025-05-23T09:06:09Z)
Can Language Models Learn Typologically Implausible Languages? [62.823015163987996]
人間の言語にまたがる文法的特徴は、人間の学習バイアスに起因する興味深い相関関係を示している。言語モデル(LM)が言語普遍性におけるドメイン一般学習バイアスの役割をよりよく決定する方法について論じる。本研究は,英語(頭初期)と日本語(頭最終)の超自然主義的だが反実的なバージョンを用いて,LMを試験する。
論文参考訳（メタデータ） (2025-02-17T20:40:01Z)
Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。 LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。 MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文参考訳（メタデータ） (2024-11-21T16:33:30Z)
Exploring Spatial Schema Intuitions in Large Language and Vision Models [8.944921398608063]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文参考訳（メタデータ） (2024-02-01T19:25:50Z)
Divergences between Language Models and Human Brains [63.405788999891335]
最近の研究は、言語モデルの内部表現(LM)を用いて脳信号が効果的に予測できることを示唆している。我々は、LMと人間が言語をどのように表現し、使用するかに明確な違いがあることを示します。我々は、社会的・情緒的知性と身体的常識という、LMによってうまく捉えられていない2つの領域を識別する。
論文参考訳（メタデータ） (2023-11-15T19:02:40Z)
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding [66.52659447360104]
CoVLM は LLM を誘導して、テキスト間の視覚的実体と関係を明示的に構成することができる。テキスト間の視覚的実体と関係を明示的に構成するために,LLM をガイドする CoVLM を提案する。
論文参考訳（メタデータ） (2023-11-06T18:59:44Z)
Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか? 本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文参考訳（メタデータ） (2023-10-20T03:33:36Z)
Tackling Vision Language Tasks Through Learning Inner Monologues [10.795616787372625]
本稿では,複雑な視覚言語問題を解くために,内部モノローグ多モード最適化(IMMO)を提案する。 IMMOは内的モノローグ過程をシミュレートする。その結果、IMMOは推論能力と説明能力を高め、視覚モデルと言語モデルのより効果的な融合に寄与することが示唆された。
論文参考訳（メタデータ） (2023-08-19T10:10:49Z)
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。 1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文参考訳（メタデータ） (2023-07-17T15:51:47Z)
Context Limitations Make Neural Language Models More Human-Like [32.488137777336036]
インクリメンタルな文処理において,現代のニューラル言語モデル(LM)と人間とのコンテキストアクセスの相違を示す。 LMが人間の読書行動をより良くシミュレートするためには、追加のコンテキスト制限が必要だった。また, メモリアクセスにおけるヒトとLMのギャップは, 特定の構文構造と関連していることを示した。
論文参考訳（メタデータ） (2022-05-23T17:01:13Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
Presentation and Analysis of a Multimodal Dataset for Grounded Language Learning [32.28310581819443]
接地的な言語習得は、言語に基づく相互作用が周囲の世界をどのように参照するかを学ぶことを伴う。実際には、学習に使用されるデータは、実際の人間のインタラクションよりもクリーンで、クリアで、文法的な傾向があります。本稿では,話し言葉と書き言葉を併用した家庭内共通物体のデータセットについて述べる。
論文参考訳（メタデータ） (2020-07-29T17:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。