Fugu-MT 論文翻訳(概要): WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual World Knowledge

論文の概要: WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual World Knowledge

arxiv url: http://arxiv.org/abs/2401.06659v2
Date: Tue, 20 Feb 2024 09:28:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 19:51:01.699934
Title: WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual World Knowledge
Title（参考訳）: WisdoM:文脈世界知識の融合によるマルチモーダル感性分析の改善
Authors: Wenbin Wang, Liang Ding, Li Shen, Yong Luo, Han Hu, Dacheng Tao
Abstract要約: 大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
参考スコア（独自算出の注目度）: 73.76722241704488
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sentiment analysis is rapidly advancing by utilizing various data modalities (e.g., text, image). However, most previous works relied on superficial information, neglecting the incorporation of contextual world knowledge (e.g., background information derived from but beyond the given image and text pairs) and thereby restricting their ability to achieve better multimodal sentiment analysis (MSA). In this paper, we proposed a plug-in framework named WisdoM, to leverage the contextual world knowledge induced from the large vision-language models (LVLMs) for enhanced MSA. WisdoM utilizes LVLMs to comprehensively analyze both images and corresponding texts, simultaneously generating pertinent context. To reduce the noise in the context, we also introduce a training-free contextual fusion mechanism. Experiments across diverse granularities of MSA tasks consistently demonstrate that our approach has substantial improvements (brings an average +1.96% F1 score among five advanced methods) over several state-of-the-art methods.
Abstract（参考訳）: 様々なデータモダリティ(テキスト、画像など)を活用することで、感性分析が急速に進んでいる。しかし、以前のほとんどの作品は表面的な情報に依存しており、文脈的世界知識(例えば、与えられた画像とテキストペアから派生した背景情報)を無視し、より良いマルチモーダル感情分析(MSA)を実現する能力を制限する。本稿では,大規模視覚言語モデル (LVLM) から誘導される文脈的世界知識を活用し,MSAの強化を目的としたプラグインフレームワーク WisdoM を提案する。 WisdoMはLVLMを用いて画像と対応するテキストを包括的に分析し、関連するコンテキストを同時に生成する。文脈におけるノイズを低減するため,トレーニング不要な文脈融合機構も導入する。 MSAタスクの様々な粒度にわたる実験は、我々の手法がいくつかの最先端手法よりも大幅に改善されていることを一貫して示している。

関連論文リスト

Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文参考訳（メタデータ） (2025-06-19T07:16:18Z)
Multi-Granular Multimodal Clue Fusion for Meme Understanding [30.697862544992386]
マルチモーダル・ミーム理解(MMU)タスクが注目度を高めている。 MMUは、メタファー認識、感情分析、意図の検出、攻撃性検出といったタスクを実行することで、ミームの意味を探求し、理解することを目的としている。我々は,MMUを前進させるために,MGMCF(Multi-granular multimodal clue fusion model)を提案する。
論文参考訳（メタデータ） (2025-03-16T16:16:53Z)
Leveraging Entity Information for Cross-Modality Correlation Learning: The Entity-Guided Multimodal Summarization [49.08348604716746]
Multimodal Summarization with Multimodal Output (MSMO) は、テキストと関連する画像の両方を統合するマルチモーダル要約を作成することを目的としている。本稿では,Entity-Guided Multimodal Summarization Model (EGMS)を提案する。我々のモデルは,BART上に構築され,共有重み付きデュアルマルチモーダルエンコーダを用いて,テキスト画像とエンティティ画像情報を並列に処理する。
論文参考訳（メタデータ） (2024-08-06T12:45:56Z)
mTREE: Multi-Level Text-Guided Representation End-to-End Learning for Whole Slide Image Analysis [16.472295458683696]
マルチモーダル学習は視覚とテキストのデータを統合するが、その病理像やテキスト解析への応用は依然として困難である。マルチレベルテキストガイド表現のエンド・ツー・エンド・ラーニング(mTREE)を導入する。この新しいテキスト誘導アプローチは、テキスト病理情報からの情報を活用することで、WSI(Whole Slide Images)を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-05-28T04:47:44Z)
TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文参考訳（メタデータ） (2024-04-15T13:54:35Z)
TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis [34.28164104577455]
言語・視覚・音響モダリティを活用したマルチモーダル感性分析(MSA)の試み過去の研究は、主に表現学習技術と特徴融合戦略の改善に焦点を当てた。テキスト指向のクロスアテンションネットワーク(TCAN)を導入し,MSAにおけるテキストモダリティの主要な役割を強調した。
論文参考訳（メタデータ） (2024-04-06T07:56:09Z)
Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文参考訳（メタデータ） (2024-01-30T03:51:44Z)
From Text to Pixels: A Context-Aware Semantic Synergy Solution for Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文参考訳（メタデータ） (2023-12-31T08:13:47Z)
Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文参考訳（メタデータ） (2023-08-30T08:33:13Z)
A Novel Context-Aware Multimodal Framework for Persian Sentiment Analysis [19.783517380422854]
まず,800以上の発話からなるペルシャのマルチモーダルデータセットについて述べる。文脈対応型マルチモーダル感情分析フレームワークを提案する。我々は,感情的クロスモーダル情報を統合するために,意思決定レベル(後期)と機能レベル(早期)の融合手法の両方を用いる。
論文参考訳（メタデータ） (2021-03-03T19:09:01Z)
An AutoML-based Approach to Multimodal Image Sentiment Analysis [1.0499611180329804]
本稿では,テキストと画像の感情分析を,automlに基づく最終的な融合分類に組み合わせる手法を提案する。提案手法は95.19%の精度でB-T4SAデータセットの最先端性能を達成した。
論文参考訳（メタデータ） (2021-02-16T11:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。