論文の概要: WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge
- arxiv url: http://arxiv.org/abs/2401.06659v2
- Date: Tue, 20 Feb 2024 09:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:51:01.699934
- Title: WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge
- Title(参考訳): WisdoM:文脈世界知識の融合によるマルチモーダル感性分析の改善
- Authors: Wenbin Wang, Liang Ding, Li Shen, Yong Luo, Han Hu, Dacheng Tao
- Abstract要約: 大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 73.76722241704488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis is rapidly advancing by utilizing various data modalities
(e.g., text, image). However, most previous works relied on superficial
information, neglecting the incorporation of contextual world knowledge (e.g.,
background information derived from but beyond the given image and text pairs)
and thereby restricting their ability to achieve better multimodal sentiment
analysis (MSA). In this paper, we proposed a plug-in framework named WisdoM, to
leverage the contextual world knowledge induced from the large vision-language
models (LVLMs) for enhanced MSA. WisdoM utilizes LVLMs to comprehensively
analyze both images and corresponding texts, simultaneously generating
pertinent context. To reduce the noise in the context, we also introduce a
training-free contextual fusion mechanism. Experiments across diverse
granularities of MSA tasks consistently demonstrate that our approach has
substantial improvements (brings an average +1.96% F1 score among five advanced
methods) over several state-of-the-art methods.
- Abstract(参考訳): 様々なデータモダリティ(テキスト、画像など)を活用することで、感性分析が急速に進んでいる。
しかし、以前のほとんどの作品は表面的な情報に依存しており、文脈的世界知識(例えば、与えられた画像とテキストペアから派生した背景情報)を無視し、より良いマルチモーダル感情分析(MSA)を実現する能力を制限する。
本稿では,大規模視覚言語モデル (LVLM) から誘導される文脈的世界知識を活用し,MSAの強化を目的としたプラグインフレームワーク WisdoM を提案する。
WisdoMはLVLMを用いて画像と対応するテキストを包括的に分析し、関連するコンテキストを同時に生成する。
文脈におけるノイズを低減するため,トレーニング不要な文脈融合機構も導入する。
MSAタスクの様々な粒度にわたる実験は、我々の手法がいくつかの最先端手法よりも大幅に改善されていることを一貫して示している。
関連論文リスト
- From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Enhancing Multimodal Entity and Relation Extraction with Variational
Information Bottleneck [12.957002659910456]
マルチモーダルなエンティティ認識(MNER)とマルチモーダルな関係抽出(MRE)について検討する。
MNERとMREの中核は、テキストセマンティクスを強化するために明らかな視覚情報を統合することである。
MMIB(Information Bottleneck)を用いたマルチモーダル表現学習によるMNERとMREの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T09:32:25Z) - A Novel Context-Aware Multimodal Framework for Persian Sentiment
Analysis [19.783517380422854]
まず,800以上の発話からなるペルシャのマルチモーダルデータセットについて述べる。
文脈対応型マルチモーダル感情分析フレームワークを提案する。
我々は,感情的クロスモーダル情報を統合するために,意思決定レベル(後期)と機能レベル(早期)の融合手法の両方を用いる。
論文 参考訳(メタデータ) (2021-03-03T19:09:01Z) - An AutoML-based Approach to Multimodal Image Sentiment Analysis [1.0499611180329804]
本稿では,テキストと画像の感情分析を,automlに基づく最終的な融合分類に組み合わせる手法を提案する。
提案手法は95.19%の精度でB-T4SAデータセットの最先端性能を達成した。
論文 参考訳(メタデータ) (2021-02-16T11:28:50Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。