論文の概要: Visual Grounding Helps Learn Word Meanings in Low-Data Regimes
- arxiv url: http://arxiv.org/abs/2310.13257v1
- Date: Fri, 20 Oct 2023 03:33:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 00:37:13.965340
- Title: Visual Grounding Helps Learn Word Meanings in Low-Data Regimes
- Title(参考訳): 低データ環境における単語の意味学習を支援するビジュアルグラウンドニング
- Authors: Chengxu Zhuang, Evelina Fedorenko, Jacob Andreas
- Abstract要約: 現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
- 参考スコア(独自算出の注目度): 53.7168869241458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern neural language models (LMs) are powerful tools for modeling human
sentence production and comprehension, and their internal representations are
remarkably well-aligned with representations of language in the human brain.
But to achieve these results, LMs must be trained in distinctly un-human-like
ways -- requiring orders of magnitude more language data than children receive
during development, and without any of the accompanying grounding in
perception, action, or social behavior. Do models trained more naturalistically
-- with grounded supervision -- exhibit more human-like language learning? We
investigate this question in the context of word learning, a key sub-task in
language acquisition. We train a diverse set of LM architectures, with and
without auxiliary supervision from image captioning tasks, on datasets of
varying scales. We then evaluate these models on a broad set of benchmarks
characterizing models' learning of syntactic categories, lexical relations,
semantic features, semantic similarity, and alignment with human neural
representations. We find that visual supervision can indeed improve the
efficiency of word learning. However, these improvements are limited: they are
present almost exclusively in the low-data regime, and sometimes canceled out
by the inclusion of rich distributional signals from text. The information
conveyed by text and images is not redundant -- we find that models mainly
driven by visual information yield qualitatively different from those mainly
driven by word co-occurrences. However, our results suggest that current
multi-modal modeling approaches fail to effectively leverage visual information
to build more human-like word representations from human-sized datasets.
- Abstract(参考訳): 現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールであり、その内部表現は人間の脳内の言語表現と著しく整合している。
しかし、これらの結果を達成するためには、LMは明らかに非人間的な方法で訓練されなければならない -- 子どもが発達中に受ける言語データよりも桁違いに多くの命令が必要であり、それに付随する知覚、行動、社会的行動の基盤がない。
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
我々は,様々なスケールのデータセット上で,画像キャプションタスクから補助的な監督を受けることなく,多様なlmアーキテクチャを訓練する。
次に、これらのモデルを、モデルによる構文カテゴリーの学習、語彙関係、意味的特徴、意味的類似性、人間の神経表現との整合性を特徴付ける幅広いベンチマークで評価する。
視覚的監督は、実際に単語学習の効率を向上させることができる。
しかし、これらの改善は制限されており、ほとんどは低データ体制に存在し、時にはテキストからの豊富な分散信号を含めることでキャンセルされる。
テキストや画像によって伝達される情報は冗長ではなく、視覚情報によって駆動されるモデルは、主に単語の共起によって駆動されるものと質的に異なる。
しかし,この結果から,従来のマルチモーダルモデリング手法では視覚情報を効果的に活用できないことが示唆された。
関連論文リスト
- ViGoR: Improving Visual Grounding of Large Vision Language Models with
Fine-Grained Reward Modeling [37.19116437843919]
大規模視覚言語モデル(LVLM)は、実世界では前例のない推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素を幻覚させるなどのエラーが発生する。
我々は,LVLMの視覚的グラウンド化を大幅に向上させるために,細粒度報酬モデリングを利用した新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - PLIP: Language-Image Pre-training for Person Representation Learning [47.61636087431226]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
微粒なクロスモーダルアソシエーションを明示的に構築するために,3つのプレテキスト,すなわちセマンティックフューズド画像のカラー化,視覚フューズド属性予測,視覚言語マッチングを設計する。
我々は、SynTH-PEDES上でPLIPを事前訓練し、テキストベースのRe-ID、画像ベースのRe-ID、人物属性認識などの下流タスクにまたがるモデルを評価する。
論文 参考訳(メタデータ) (2023-05-15T06:49:00Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Efficient Multi-Modal Embeddings from Structured Data [0.0]
マルチモーダルワードセマンティクスは、知覚入力による埋め込みを強化することを目的としている。
ビジュアルグラウンドは言語アプリケーションにも貢献できる。
新しい埋め込みは、テキストベースの埋め込みのための補完的な情報を伝達する。
論文 参考訳(メタデータ) (2021-10-06T08:42:09Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - A Visuospatial Dataset for Naturalistic Verb Learning [18.654373173232205]
基礎言語モデルのトレーニングと評価のための新しいデータセットを導入する。
我々のデータはバーチャルリアリティー環境で収集され、言語データの品質をエミュレートするように設計されている。
収集したデータを用いて、動詞学習のための複数の分布意味論モデルを比較する。
論文 参考訳(メタデータ) (2020-10-28T20:47:13Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。