論文の概要: Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment
Analysis
- arxiv url: http://arxiv.org/abs/2204.07955v2
- Date: Thu, 21 Apr 2022 12:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 11:45:42.854320
- Title: Vision-Language Pre-Training for Multimodal Aspect-Based Sentiment
Analysis
- Title(参考訳): マルチモーダルアスペクトに基づく感性分析のためのビジョンランゲージ事前学習
- Authors: Yan Ling, Jianfei Yu, Rui Xia
- Abstract要約: 近年,マルチモーダル・アスペクトベース感性分析 (MABSA) が注目されている。
i) クロスモーダルアライメントを無視した事前学習された視覚モデルとテキストモデル、または(ii) 一般的な事前学習タスクで事前訓練された視覚的なきめ細やかなモデルのいずれかを使用する。
我々は,MABSA(MABSA)のためのタスク固有のビジョンランゲージ事前学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.482853330324748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As an important task in sentiment analysis, Multimodal Aspect-Based Sentiment
Analysis (MABSA) has attracted increasing attention in recent years. However,
previous approaches either (i) use separately pre-trained visual and textual
models, which ignore the crossmodal alignment or (ii) use vision-language
models pre-trained with general pre-training tasks, which are inadequate to
identify finegrained aspects, opinions, and their alignments across modalities.
To tackle these limitations, we propose a task-specific Vision-Language
Pre-training framework for MABSA (VLPMABSA), which is a unified multimodal
encoder-decoder architecture for all the pretraining and downstream tasks. We
further design three types of task-specific pre-training tasks from the
language, vision, and multimodal modalities, respectively. Experimental results
show that our approach generally outperforms the state-of-the-art approaches on
three MABSA subtasks. Further analysis demonstrates the effectiveness of each
pretraining task. The source code is publicly released at
https://github.com/NUSTM/VLP-MABSA.
- Abstract(参考訳): 近年,感情分析における重要な課題として,マルチモーダル・アスペクトベース感性分析(MABSA)が注目されている。
しかし 前回のアプローチは
(i)クロスモーダルアライメントを無視する、別々に事前学習された視覚及びテキストモデルを使用する。
(II) 一般的な事前学習タスクで事前訓練された視覚言語モデルを用いて, 微粒な側面, 意見, 微粒なアライメントの同定に不適である。
これらの制約に対処するため,MABSA(VLPMABSA)のためのタスク固有のビジョンランゲージ事前学習フレームワークを提案する。
さらに,言語,視覚,マルチモーダルモダリティからタスク固有のプリトレーニングタスクを3種類設計した。
実験結果から,本手法は3つのMABSAサブタスクに対する最先端アプローチよりも優れていた。
さらなる分析は、各事前学習タスクの有効性を示す。
ソースコードはhttps://github.com/NUSTM/VLP-MABSAで公開されている。
関連論文リスト
- A Multi-Task Semantic Decomposition Framework with Task-specific
Pre-training for Few-Shot NER [26.008350261239617]
マルチタスク・セマンティック・デコンストラクション・フレームワークを提案する。
本稿では,MLM(Demonstration-based Masked Language Modeling)とクラスコントラスト識別(Class Contrastive Discrimination)の2つの新しい事前学習タスクを紹介する。
下流のメインタスクでは,エンティティ分類のための2つの異なるセマンティック情報の統合を容易にするセマンティックデコンポーザリング手法を用いたマルチタスク共同最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-28T12:46:21Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z) - VLM: Task-agnostic Video-Language Model Pre-training for Video
Understanding [78.28397557433544]
本稿では,タスクに依存しないマルチモーダル事前学習手法を提案する。
実験の結果,従来の手法よりも広い範囲のタスクに対して強い性能を示し,タスク固有の事前学習よりも優れていた。
論文 参考訳(メタデータ) (2021-05-20T19:13:27Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。