論文の概要: Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining?
- arxiv url: http://arxiv.org/abs/2308.12898v2
- Date: Fri, 25 Aug 2023 12:22:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 11:12:42.459111
- Title: Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining?
- Title(参考訳): 視覚言語前訓練における言語知識はマルチモーダルアライメントを改善するか?
- Authors: Fei Wang, Liang Ding, Jun Rao, Ye Liu, Li Shen, Changxing Ding
- Abstract要約: 本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
- 参考スコア(独自算出の注目度): 34.609984453754656
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The multimedia community has shown a significant interest in perceiving and
representing the physical world with multimodal pretrained neural network
models, and among them, the visual-language pertaining (VLP) is, currently, the
most captivating topic. However, there have been few endeavors dedicated to the
exploration of 1) whether essential linguistic knowledge (e.g., semantics and
syntax) can be extracted during VLP, and 2) how such linguistic knowledge
impact or enhance the multimodal alignment. In response, here we aim to
elucidate the impact of comprehensive linguistic knowledge, including semantic
expression and syntactic structure, on multimodal alignment. Specifically, we
design and release the SNARE, the first large-scale multimodal alignment
probing benchmark, to detect the vital linguistic components, e.g., lexical,
semantic, and syntax knowledge, containing four tasks: Semantic structure,
Negation logic, Attribute ownership, and Relationship composition. Based on our
proposed probing benchmarks, our holistic analyses of five advanced VLP models
illustrate that the VLP model: i) shows insensitivity towards complex syntax
structures and relies on content words for sentence comprehension; ii)
demonstrates limited comprehension of combinations between sentences and
negations; iii) faces challenges in determining the presence of actions or
spatial relationships within visual information and struggles with verifying
the correctness of triple combinations. We make our benchmark and code
available at \url{https://github.com/WangFei-2019/SNARE/}.
- Abstract(参考訳): マルチメディアコミュニティは、マルチモーダル事前学習されたニューラルネットワークモデルによる物理世界の知覚と表現に大きな関心を示しており、その中でも、視覚言語関連(vlp)は、現在、最も魅惑的な話題である。
しかし、探検のための活動はほとんど行われていない。
1)本質的な言語知識(セマンティクスや構文など)をVLP中に抽出できるかどうか、そして
2) 言語知識がマルチモーダルアライメントにどのように影響するか。
そこで本研究では,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることを目的とする。
具体的には、セマンティック構造、否定論理、属性オーナシップ、関係合成の4つのタスクを含む語彙、意味、構文知識などの重要な言語要素を検出するため、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
提案した探索ベンチマークに基づいて、5つの先進的なVLPモデルの総合解析により、VLPモデルが示される。
一 複雑な構文構造に敏感で、文理解のための内容語に依存すること。
二 文と否定の組合せの限定的な理解を示すこと。
三 視覚情報における行動の有無又は空間的関係の決定の困難に直面し、三重組み合わせの正確性の検証に苦しむこと。
ベンチマークとコードは \url{https://github.com/wangfei-2019/snare/} で利用可能です。
関連論文リスト
- HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - Resolving Word Vagueness with Scenario-guided Adapter for Natural Language Inference [24.58277380514406]
自然言語推論(NLI)は自然言語処理において重要な課題である。
本稿では,大規模な事前学習型言語知識と関連する視覚情報とを同時に統合する,革新的なScenaFuseアダプタを提案する。
我々のアプローチは言語と視覚のギャップを埋め、NLIタスクにおける理解と推論能力の改善につながります。
論文 参考訳(メタデータ) (2024-05-21T01:19:52Z) - A semantically enhanced dual encoder for aspect sentiment triplet
extraction [0.7291396653006809]
アスペクト・センチメント・トリプルト抽出(ASTE)はアスペクト・ベースの感情分析(ABSA)の重要なサブタスクである
従来の研究は、革新的なテーブル充填戦略によるASTEの強化に重点を置いてきた。
本稿では,BERTをベースとした基本エンコーダと,Bi-LSTMネットワークとGCN(Graph Convolutional Network)で構成される特定のエンコーダの両方を利用するフレームワークを提案する。
ベンチマークデータセットを用いた実験により,提案フレームワークの最先端性能を実証した。
論文 参考訳(メタデータ) (2023-06-14T09:04:14Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。