論文の概要: Imagination-Augmented Natural Language Understanding
- arxiv url: http://arxiv.org/abs/2204.08535v1
- Date: Mon, 18 Apr 2022 19:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 01:41:32.461080
- Title: Imagination-Augmented Natural Language Understanding
- Title(参考訳): Imagination-Augmented Natural Language Understanding
- Authors: Yujie Lu, Wanrong Zhu, Xin Eric Wang, Miguel Eckstein, William Yang
Wang
- Abstract要約: 自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。
iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
- 参考スコア(独自算出の注目度): 71.51687221130925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human brains integrate linguistic and perceptual information simultaneously
to understand natural language, and hold the critical ability to render
imaginations. Such abilities enable us to construct new abstract concepts or
concrete objects, and are essential in involving practical knowledge to solve
problems in low-resource scenarios. However, most existing methods for Natural
Language Understanding (NLU) are mainly focused on textual signals. They do not
simulate human visual imagination ability, which hinders models from inferring
and learning efficiently from limited data samples. Therefore, we introduce an
Imagination-Augmented Cross-modal Encoder (iACE) to solve natural language
understanding tasks from a novel learning perspective -- imagination-augmented
cross-modal understanding. iACE enables visual imagination with external
knowledge transferred from the powerful generative and pre-trained
vision-and-language models. Extensive experiments on GLUE and SWAG show that
iACE achieves consistent improvement over visually-supervised pre-trained
models. More importantly, results in extreme and normal few-shot settings
validate the effectiveness of iACE in low-resource natural language
understanding circumstances.
- Abstract(参考訳): 人間の脳は自然言語を理解するために言語情報と知覚情報を同時に統合し、想像力を生み出す重要な能力を持っている。
このような能力により、我々は新しい抽象概念や具体的なオブジェクトを構築でき、低リソースシナリオにおける問題を解決するための実践的知識の関与に不可欠である。
しかし、既存の自然言語理解法(NLU)のほとんどは、主にテキスト信号に焦点を当てている。
人間の視覚的想像力をシミュレートしないため、限られたデータサンプルからモデルを推論し、学習することを妨げる。
そこで本研究では,Imagination-Augmented Cross-modal Encoder (iACE)を導入し,自然言語理解の課題を新たな学習視点から解決する。
iACEは、強力な生成および事前学習された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの大規模な実験により、iACEは視覚的に制御された事前学習モデルよりも一貫した改善を達成している。
さらに重要なことは、低リソースの自然言語理解環境でのiACEの有効性を極端に正常に検証する。
関連論文リスト
- Using Multimodal Deep Neural Networks to Disentangle Language from Visual Aesthetics [8.749640179057469]
我々は、自然画像の人間の美的評価を予測するために、ユニモーダル視覚、ユニモーダル言語、マルチモーダルディープニューラルネットワーク(DNN)モデルの学習表現に対する線形復号を用いる。
言語対応型視覚モデル(SLIPなど)は, 単言語型視覚モデル(SimCLRなど)では, 言語対応の視覚モデル(SLIPなど)では, 単言語型視覚と比較して小さな利得が得られている。
まとめると、これらの結果は、最終的に我々が美の体験を説明するために見つかるであろう言葉が何であれ、フィードフォワードの知覚の計算は、その経験に十分な基礎を与えるかもしれないことを示唆している。
論文 参考訳(メタデータ) (2024-10-31T03:37:21Z) - Contextual Emotion Recognition using Large Vision Language Models [0.6749750044497732]
現実の状況における人の明らかな感情の人間レベルの認識を達成することは、コンピュータビジョンにおいて未解決の課題である。
本稿では,近年の大規模視覚言語モデルによって実現された2つの主要なアプローチについて検討する。
私たちは、小さなデータセットでも微調整された視覚言語モデルが、従来のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-05-14T23:24:12Z) - Mind's Eye of LLMs: Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models [71.93366651585275]
大規模言語モデル(LLM)は、言語理解と様々な推論タスクにおいて印象的な性能を示した。
本稿では,LLMの空間的推論を視覚的に行うために,VoT(Visual-of-Thought)を提案する。
VoTはLLMの空間的推論能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-04T17:45:08Z) - Analyzing the Roles of Language and Vision in Learning from Limited Data [31.895396236504993]
我々は、言語とビジョンが世界について学ぶために与える貢献について研究する。
すべてのコンポーネントを活用する言語モデルがビジョンランゲージモデルの性能の大部分を回復することがわかった。
論文 参考訳(メタデータ) (2024-02-15T22:19:41Z) - Tackling Vision Language Tasks Through Learning Inner Monologues [10.795616787372625]
本稿では,複雑な視覚言語問題を解くために,内部モノローグ多モード最適化(IMMO)を提案する。
IMMOは内的モノローグ過程をシミュレートする。
その結果、IMMOは推論能力と説明能力を高め、視覚モデルと言語モデルのより効果的な融合に寄与することが示唆された。
論文 参考訳(メタデータ) (2023-08-19T10:10:49Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Z-LaVI: Zero-Shot Language Solver Fueled by Visual Imagination [57.49336064527538]
視覚的想像力を持つ言語モデルを実現するための新しいアプローチであるZ-LaVIを開発した。
i) 既存の画像の検索によるリコールと, (ii) テキスト・ツー・イメージ生成による既存の画像の合成である。
言語入力と想像力を併用して、事前訓練された視覚言語モデルは、最終的に元の言語タスクに対するゼロショットのソリューションを構成する。
論文 参考訳(メタデータ) (2022-10-21T21:33:10Z) - Visualizing and Explaining Language Models [0.0]
自然言語処理はコンピュータビジョンの後、人工知能の第2の分野となった。
本稿では,NLPビジュアライゼーションにおいて最もポピュラーなDeep Learningの手法について紹介し,解釈可能性と説明可能性に着目した。
論文 参考訳(メタデータ) (2022-04-30T17:23:33Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Vision and Language: from Visual Perception to Content Creation [100.36776435627962]
言語へのビジョン"は、おそらく過去5年で最も人気のあるトピックの1つである。
本稿は、これらの2つの側面に沿った最近の進歩、すなわち「言語へのビジョン」と「視覚への言語」を概観する。
論文 参考訳(メタデータ) (2019-12-26T14:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。