論文の概要: WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge
- arxiv url: http://arxiv.org/abs/2401.06659v1
- Date: Fri, 12 Jan 2024 16:08:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 18:57:13.242329
- Title: WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge
- Title(参考訳): WisdoM:文脈世界知識の融合によるマルチモーダル感性分析の改善
- Authors: Wenbin Wang, Liang Ding, Li Shen, Yong Luo, Han Hu, Dacheng Tao
- Abstract要約: 大規模視覚言語モデル(LVLM)から誘導される文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
提案手法は,5つの高度な手法のうち平均 +1.89 F1 スコア) を,いくつかの最先端手法よりも大幅に改善したことを示す。
- 参考スコア(独自算出の注目度): 73.76722241704488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentiment analysis is rapidly advancing by utilizing various data modalities
(e.g., text, image). However, most previous works relied on superficial
information, neglecting the incorporation of contextual world knowledge (e.g.,
background information derived from but beyond the given image and text pairs)
and thereby restricting their ability to achieve better multimodal sentiment
analysis. In this paper, we proposed a plug-in framework named WisdoM, designed
to leverage contextual world knowledge induced from the large vision-language
models (LVLMs) for enhanced multimodal sentiment analysis. WisdoM utilizes a
LVLM to comprehensively analyze both images and corresponding sentences,
simultaneously generating pertinent context. To reduce the noise in the
context, we also introduce a training-free Contextual Fusion mechanism.
Experimental results across diverse granularities of multimodal sentiment
analysis tasks consistently demonstrate that our approach has substantial
improvements (brings an average +1.89 F1 score among five advanced methods)
over several state-of-the-art methods. Code will be released.
- Abstract(参考訳): 様々なデータモダリティ(テキスト、画像など)を活用することで、感性分析が急速に進んでいる。
しかし、以前のほとんどの作品は表面的な情報に依存しており、文脈的世界知識(例えば、与えられた画像とテキストペアから派生した背景情報)を無視することで、より良いマルチモーダルな感情分析を実現する能力を制限する。
本稿では,大規模視覚言語モデル(LVLM)から得られた文脈的世界知識を活用し,マルチモーダル感情分析の強化を目的としたプラグインフレームワークWisdoMを提案する。
WisdoMはLVLMを使用して画像と対応する文を包括的に解析し、関連するコンテキストを同時に生成する。
文脈における雑音を低減するため、トレーニング不要なコンテキスト融合機構も導入する。
マルチモーダル感情分析タスクの多種多様な粒度にわたる実験結果から、我々の手法はいくつかの最先端手法よりも大幅に改善されている(5つの高度な手法で平均+1.89F1スコアを得る)。
コードはリリースされる。
関連論文リスト
- Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。
本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。
我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文 参考訳(メタデータ) (2024-08-06T12:45:56Z) - mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis [16.472295458683696]
マルチモーダル学習は視覚とテキストのデータを統合するが、その病理像やテキスト解析への応用は依然として困難である。
マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を導入する。
この新しいテキスト誘導アプローチは、テキスト病理情報からの情報を活用することで、WSI(Whole Slide Images)を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-28T04:47:44Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis [34.28164104577455]
言語・視覚・音響モダリティを活用したマルチモーダル感性分析(MSA)の試み
過去の研究は、主に表現学習技術と特徴融合戦略の改善に焦点を当てた。
テキスト指向のクロスアテンションネットワーク(TCAN)を導入し,MSAにおけるテキストモダリティの主要な役割を強調した。
論文 参考訳(メタデータ) (2024-04-06T07:56:09Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - A Novel Context-Aware Multimodal Framework for Persian Sentiment
Analysis [19.783517380422854]
まず,800以上の発話からなるペルシャのマルチモーダルデータセットについて述べる。
文脈対応型マルチモーダル感情分析フレームワークを提案する。
我々は,感情的クロスモーダル情報を統合するために,意思決定レベル(後期)と機能レベル(早期)の融合手法の両方を用いる。
論文 参考訳(メタデータ) (2021-03-03T19:09:01Z) - An AutoML-based Approach to Multimodal Image Sentiment Analysis [1.0499611180329804]
本稿では,テキストと画像の感情分析を,automlに基づく最終的な融合分類に組み合わせる手法を提案する。
提案手法は95.19%の精度でB-T4SAデータセットの最先端性能を達成した。
論文 参考訳(メタデータ) (2021-02-16T11:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。