論文の概要: Does Vision Accelerate Hierarchical Generalization of Neural Language
Learners?
- arxiv url: http://arxiv.org/abs/2302.00667v1
- Date: Wed, 1 Feb 2023 18:53:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 16:49:05.396967
- Title: Does Vision Accelerate Hierarchical Generalization of Neural Language
Learners?
- Title(参考訳): 視覚はニューラルネットワーク学習者の階層的一般化を促進するか?
- Authors: Tatsuki Kuribayashi
- Abstract要約: LMの統語的一般化における視覚の優位性に向けた2つの実験を行った。
その結果,視覚は単純化された人工的な環境において適切な言語一般化を促進できたが,LMは騒音や現実的な環境に苦しんだ。
これらの混合結果は、例えば視覚が言語の習得を促進する可能性を示しているが、学習者の視覚的/言語的事前知識は必要である。
- 参考スコア(独自算出の注目度): 5.073880854565685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural language models (LMs) are arguably less data-efficient than humans --
why does this gap occur? In this study, we hypothesize that this gap stems from
the learners' accessibility to modalities other than text, specifically,
vision. We conducted two complementary experiments (using noisy, realistic data
and a simplified, artificial one) toward the advantage of vision in the
syntactic generalization of LMs. Our results showed that vision accelerated a
proper linguistic generalization in the simplified, artificial setting, but LMs
struggled with the noisy, realistic setting. These mixed results indicate
several possibilities, e.g., vision can potentially boost language acquisition,
but learners' additional visual/linguistic prior knowledge should be needed to
robustly make use of raw images for efficient language acquisition.
- Abstract(参考訳): ニューラルネットワークモデル(LM)は、人間よりも間違いなくデータ効率が低い - なぜこのギャップが生じるのか?
本研究では,このギャップは,テキスト,特に視覚以外のモダリティへの学習者のアクセシビリティに起因していると仮定する。
LMの統語的一般化における視覚の利点を活かした2つの相補的な実験(ノイズ、現実的データ、単純化された人工的な実験)を行った。
その結果、視覚は単純で人工的な設定で適切な言語一般化を加速したが、lmsはノイズの多い現実的な設定に苦しんだ。
これらの混合結果は、例えば視覚によって言語習得が促進される可能性を示すが、学習者の視覚的・言語的事前知識の追加は、効率的な言語獲得のために生画像を堅牢に利用するために必要である。
関連論文リスト
- Machine Vision Therapy: Multimodal Large Language Models Can Enhance
Visual Robustness via Denoising In-Context Learning [71.0588455785955]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual
Tokenization [53.946191253524766]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Language with Vision: a Study on Grounded Word and Sentence Embeddings [6.231247903840833]
視覚における接地言語は、認知的に妥当な単語と文表現の構築を目指す研究の活発な分野である。
本研究では,事前学習した単語埋め込みのための基礎計算モデルを提案する。
本モデルは,テキスト埋め込みを視覚情報と整合させることにより,言語と視覚の相互作用を効果的にバランスさせる。
論文 参考訳(メタデータ) (2022-06-17T15:04:05Z) - Imagination-Augmented Natural Language Understanding [71.51687221130925]
自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。
iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
論文 参考訳(メタデータ) (2022-04-18T19:39:36Z) - Neural Variational Learning for Grounded Language Acquisition [14.567067583556714]
本稿では,言語が特定の定義された用語のカテゴリを含まない視覚的知覚に基礎を置いている学習システムを提案する。
この生成手法は,低リソース環境下での視覚的カテゴリを事前に指定することなく,言語接地において有望な結果を示すことを示す。
論文 参考訳(メタデータ) (2021-07-20T20:55:02Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。