Fugu-MT 論文翻訳(概要): Visual Grounding Helps Learn Word Meanings in Low-Data Regimes

論文の概要: Visual Grounding Helps Learn Word Meanings in Low-Data Regimes

arxiv url: http://arxiv.org/abs/2310.13257v1
Date: Fri, 20 Oct 2023 03:33:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 00:37:13.965340
Title: Visual Grounding Helps Learn Word Meanings in Low-Data Regimes
Title（参考訳）: 低データ環境における単語の意味学習を支援するビジュアルグラウンドニング
Authors: Chengxu Zhuang, Evelina Fedorenko, Jacob Andreas
Abstract要約: 現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか? 本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
参考スコア（独自算出の注目度）: 53.7168869241458
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern neural language models (LMs) are powerful tools for modeling human sentence production and comprehension, and their internal representations are remarkably well-aligned with representations of language in the human brain. But to achieve these results, LMs must be trained in distinctly un-human-like ways -- requiring orders of magnitude more language data than children receive during development, and without any of the accompanying grounding in perception, action, or social behavior. Do models trained more naturalistically -- with grounded supervision -- exhibit more human-like language learning? We investigate this question in the context of word learning, a key sub-task in language acquisition. We train a diverse set of LM architectures, with and without auxiliary supervision from image captioning tasks, on datasets of varying scales. We then evaluate these models on a broad set of benchmarks characterizing models' learning of syntactic categories, lexical relations, semantic features, semantic similarity, and alignment with human neural representations. We find that visual supervision can indeed improve the efficiency of word learning. However, these improvements are limited: they are present almost exclusively in the low-data regime, and sometimes canceled out by the inclusion of rich distributional signals from text. The information conveyed by text and images is not redundant -- we find that models mainly driven by visual information yield qualitatively different from those mainly driven by word co-occurrences. However, our results suggest that current multi-modal modeling approaches fail to effectively leverage visual information to build more human-like word representations from human-sized datasets.
Abstract（参考訳）: 現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールであり、その内部表現は人間の脳内の言語表現と著しく整合している。しかし、これらの結果を達成するためには、LMは明らかに非人間的な方法で訓練されなければならない -- 子どもが発達中に受ける言語データよりも桁違いに多くの命令が必要であり、それに付随する知覚、行動、社会的行動の基盤がない。本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。我々は,様々なスケールのデータセット上で,画像キャプションタスクから補助的な監督を受けることなく,多様なlmアーキテクチャを訓練する。次に、これらのモデルを、モデルによる構文カテゴリーの学習、語彙関係、意味的特徴、意味的類似性、人間の神経表現との整合性を特徴付ける幅広いベンチマークで評価する。視覚的監督は、実際に単語学習の効率を向上させることができる。しかし、これらの改善は制限されており、ほとんどは低データ体制に存在し、時にはテキストからの豊富な分散信号を含めることでキャンセルされる。テキストや画像によって伝達される情報は冗長ではなく、視覚情報によって駆動されるモデルは、主に単語の共起によって駆動されるものと質的に異なる。しかし,この結果から,従来のマルチモーダルモデリング手法では視覚情報を効果的に活用できないことが示唆された。

関連論文リスト

Impact of Language Guidance: A Reproducibility Study [0.0]
近年の自己教師型学習の進歩により,明示的なアノテーションを使わずに巨大なモデルを訓練することが可能になった。市販画像キャプションモデルBLIP-2を用いて,キャプションの置き換えと性能の向上を図る。また,解釈可能性に基づく自己教師付きモデルのセマンティック能力を評価するための新しい指標も考案した。
論文参考訳（メタデータ） (2025-04-10T21:59:13Z)
Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文参考訳（メタデータ） (2024-08-07T08:18:51Z)
Modelling Multimodal Integration in Human Concept Processing with Vision-Language Models [7.511284868070148]
視覚言語情報の統合が、人間の脳活動とより整合した表現に繋がるかどうかを考察する。ヒト脳活性化予測におけるマルチモーダルモデルの有用性が示唆された。
論文参考訳（メタデータ） (2024-07-25T10:08:37Z)
DevBench: A multimodal developmental benchmark for language learning [0.34129029452670606]
タスクと行動データに基づいて視覚言語モデルを評価するベンチマークであるDevBenchを紹介する。 DevBenchは、モデルを人間の言語開発と比較するためのベンチマークを提供する。これらの比較は、モデルと人間の言語学習プロセスの分岐方法を強調する。
論文参考訳（メタデータ） (2024-06-14T17:49:41Z)
Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。 LCGは学習効率において標準言語のみのモデルより優れている。 CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文参考訳（メタデータ） (2024-03-21T16:52:01Z)
Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文参考訳（メタデータ） (2023-07-31T17:57:49Z)
SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文参考訳（メタデータ） (2023-07-15T08:33:08Z)
Localization vs. Semantics: Visual Representations in Unimodal and Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文参考訳（メタデータ） (2022-12-01T05:00:18Z)
A Visuospatial Dataset for Naturalistic Verb Learning [18.654373173232205]
基礎言語モデルのトレーニングと評価のための新しいデータセットを導入する。我々のデータはバーチャルリアリティー環境で収集され、言語データの品質をエミュレートするように設計されている。収集したデータを用いて、動詞学習のための複数の分布意味論モデルを比較する。
論文参考訳（メタデータ） (2020-10-28T20:47:13Z)
Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文参考訳（メタデータ） (2020-10-14T02:11:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。