論文の概要: Imagination-Augmented Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2204.08535v1
- Date: Mon, 18 Apr 2022 19:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 01:41:32.461080
- Title: Imagination-Augmented Natural Language Understanding
- Title(参考訳): Imagination-Augmented Natural Language Understanding
- Authors: Yujie Lu, Wanrong Zhu, Xin Eric Wang, Miguel Eckstein, William Yang
Wang
- Abstract要約: 自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。
iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
- 参考スコア(独自算出の注目度): 71.51687221130925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human brains integrate linguistic and perceptual information simultaneously
to understand natural language, and hold the critical ability to render
imaginations. Such abilities enable us to construct new abstract concepts or
concrete objects, and are essential in involving practical knowledge to solve
problems in low-resource scenarios. However, most existing methods for Natural
Language Understanding (NLU) are mainly focused on textual signals. They do not
simulate human visual imagination ability, which hinders models from inferring
and learning efficiently from limited data samples. Therefore, we introduce an
Imagination-Augmented Cross-modal Encoder (iACE) to solve natural language
understanding tasks from a novel learning perspective -- imagination-augmented
cross-modal understanding. iACE enables visual imagination with external
knowledge transferred from the powerful generative and pre-trained
vision-and-language models. Extensive experiments on GLUE and SWAG show that
iACE achieves consistent improvement over visually-supervised pre-trained
models. More importantly, results in extreme and normal few-shot settings
validate the effectiveness of iACE in low-resource natural language
understanding circumstances.
- Abstract(参考訳): 人間の脳は自然言語を理解するために言語情報と知覚情報を同時に統合し、想像力を生み出す重要な能力を持っている。
このような能力により、我々は新しい抽象概念や具体的なオブジェクトを構築でき、低リソースシナリオにおける問題を解決するための実践的知識の関与に不可欠である。
しかし、既存の自然言語理解法(NLU)のほとんどは、主にテキスト信号に焦点を当てている。
人間の視覚的想像力をシミュレートしないため、限られたデータサンプルからモデルを推論し、学習することを妨げる。
そこで本研究では,Imagination-Augmented Cross-modal Encoder (iACE)を導入し,自然言語理解の課題を新たな学習視点から解決する。
iACEは、強力な生成および事前学習された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの大規模な実験により、iACEは視覚的に制御された事前学習モデルよりも一貫した改善を達成している。
さらに重要なことは、低リソースの自然言語理解環境でのiACEの有効性を極端に正常に検証する。
関連論文リスト
- Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [53.7168869241458]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Tackling Vision Language Tasks Through Learning Inner Monologues [10.795616787372625]
本稿では,複雑な視覚言語問題を解くために,内部モノローグ多モード最適化(IMMO)を提案する。
IMMOは内的モノローグ過程をシミュレートする。
その結果、IMMOは推論能力と説明能力を高め、視覚モデルと言語モデルのより効果的な融合に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-08-19T10:10:49Z) - Learning to Model the World with Language [98.22400014565818]
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学び、想像されたモデルロールアウトから行動を学ぶエージェントであるDynalangを紹介する。
アクションを予測するためにのみ言語を使用する従来のエージェントとは異なり、Dynalangは、過去の言語を使用して、将来の言語、ビデオ、報酬を予測することによって、リッチな言語理解を得る。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining
on Visual Language Understanding [13.300199242824934]
視覚的・言語的な事前学習が、暗黙的な視覚的推論を含むテキストのみのタスクのパフォーマンスを向上させるかどうかを検討する。
本稿では,テキストエンコーダモデルの視覚的推論能力を探索するための視覚言語理解タスクを提案する。
また,テキストのみのタスクにCLIPなどのモデルを適用するための新しいゼロショット知識探索手法であるStroop Probingも提案する。
論文 参考訳(メタデータ) (2023-03-21T17:30:40Z) - Does Vision Accelerate Hierarchical Generalization of Neural Language
Learners? [5.073880854565685]
LMの統語的一般化における視覚の優位性に向けた2つの実験を行った。
その結果,視覚は単純化された人工的な環境において適切な言語一般化を促進できたが,LMは騒音や現実的な環境に苦しんだ。
これらの混合結果は、例えば視覚が言語の習得を促進する可能性を示しているが、学習者の視覚的/言語的事前知識は必要である。
論文 参考訳(メタデータ) (2023-02-01T18:53:42Z) - Z-LaVI: Zero-Shot Language Solver Fueled by Visual Imagination [57.49336064527538]
視覚的想像力を持つ言語モデルを実現するための新しいアプローチであるZ-LaVIを開発した。
i) 既存の画像の検索によるリコールと, (ii) テキスト・ツー・イメージ生成による既存の画像の合成である。
言語入力と想像力を併用して、事前訓練された視覚言語モデルは、最終的に元の言語タスクに対するゼロショットのソリューションを構成する。
論文 参考訳(メタデータ) (2022-10-21T21:33:10Z) - Visualizing and Explaining Language Models [0.0]
自然言語処理はコンピュータビジョンの後、人工知能の第2の分野となった。
本稿では,NLPビジュアライゼーションにおいて最もポピュラーなDeep Learningの手法について紹介し,解釈可能性と説明可能性に着目した。
論文 参考訳(メタデータ) (2022-04-30T17:23:33Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Vision and Language: from Visual Perception to Content Creation [100.36776435627962]
言語へのビジョン"は、おそらく過去5年で最も人気のあるトピックの1つである。
本稿は、これらの2つの側面に沿った最近の進歩、すなわち「言語へのビジョン」と「視覚への言語」を概観する。
論文 参考訳(メタデータ) (2019-12-26T14:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。