論文の概要: A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2312.08084v2
- Date: Fri, 15 Dec 2023 13:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 12:46:07.753325
- Title: A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis
- Title(参考訳): マルチモーダルアスペクトに基づく感性分析のための新しいエネルギーモデル機構
- Authors: Tianshuo Peng, Zuchao Li, Ping Wang, Lefei Zhang, Hai Zhao
- Abstract要約: マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
- 参考スコア(独自算出の注目度): 85.77557381023617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal aspect-based sentiment analysis (MABSA) has recently attracted
increasing attention. The span-based extraction methods, such as FSUIE,
demonstrate strong performance in sentiment analysis due to their joint
modeling of input sequences and target labels. However, previous methods still
have certain limitations: (i) They ignore the difference in the focus of visual
information between different analysis targets (aspect or sentiment). (ii)
Combining features from uni-modal encoders directly may not be sufficient to
eliminate the modal gap and can cause difficulties in capturing the image-text
pairwise relevance. (iii) Existing span-based methods for MABSA ignore the
pairwise relevance of target span boundaries. To tackle these limitations, we
propose a novel framework called DQPSA for multi-modal sentiment analysis.
Specifically, our model contains a Prompt as Dual Query (PDQ) module that uses
the prompt as both a visual query and a language query to extract prompt-aware
visual information and strengthen the pairwise relevance between visual
information and the analysis target. Additionally, we introduce an Energy-based
Pairwise Expert (EPE) module that models the boundaries pairing of the analysis
target from the perspective of an Energy-based Model. This expert predicts
aspect or sentiment span based on pairwise stability. Experiments on three
widely used benchmarks demonstrate that DQPSA outperforms previous approaches
and achieves a new state-of-the-art performance.
- Abstract(参考訳): マルチモーダル・アスペクトベース感情分析(MABSA)は近年注目を集めている。
fsuieのようなスパンベースの抽出手法は、入力シーケンスとターゲットラベルの結合モデルにより感情分析において強い性能を示す。
しかし、以前の方法にはいくつかの制限がある。
(i)異なる分析対象(アスペクトまたは感情)間の視覚情報の焦点の違いを無視する。
(二)一様エンコーダの機能を組み込むことは、モダルギャップをなくすのに十分ではなく、画像テキストのペア関係を捉えるのに困難を引き起こす可能性がある。
三 既存のMABSAのスパンベース手法は、標的スパン境界の対関係を無視する。
これらの制約に対処するため,マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
具体的には、プロンプト・アズ・デュアル・クエリ(PDQ)モジュールを視覚的クエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出し、視覚情報と分析対象との相互関係を強化する。
さらに、エネルギーベースモデルの観点から分析対象の境界ペアリングをモデル化したエネルギーベースPairwise Expert (EPE) モジュールを導入する。
この専門家は、ペアの安定性に基づいてアスペクトや感情を予測します。
広く使用されている3つのベンチマークの実験では、DQPSAは従来のアプローチより優れ、新しい最先端のパフォーマンスを実現している。
関連論文リスト
- PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Explore In-Context Segmentation via Latent Diffusion Models [132.26274147026854]
潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。
画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
論文 参考訳(メタデータ) (2024-03-14T17:52:31Z) - Cross-target Stance Detection by Exploiting Target Analytical
Perspectives [22.320628580895164]
目標位置検出(CTSD)は,目標位置からのアノテートデータを利用することで,目標位置の姿勢を推定する重要なタスクである。
CTSDにおける重要なアプローチの1つは、複数のターゲット間の知識ギャップを埋めるために、ドメイン不変の特徴を抽出することである。
本稿では,解析的視点をブリッジとして用いたCTSDのためのMPPTモデルを提案する。
論文 参考訳(メタデータ) (2024-01-03T14:28:55Z) - Cross-Modal Reasoning with Event Correlation for Video Question
Answering [32.332251488360185]
本稿では, 副次的・蒸留的事象関連情報として高密度キャプションモダリティを導入し, その正解を推測する。
我々は、モーダル間関係を明示的にモデル化し、異なるモーダル間で関連情報を集約するために、モーダル間推論モジュールを用いる。
質問指向および事象関連エビデンスを多段階推論により収集する,質問誘導型自己適応型マルチモーダル融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-20T02:30:39Z) - Rethinking Uncertainly Missing and Ambiguous Visual Modality in
Multi-Modal Entity Alignment [38.574204922793626]
提案するデータセットMMEA-UMVM上で,最新のMMEAモデルをベンチマークすることで,視覚的モダリティの不完全性のさらなる解析を行う。
我々の研究は、モダリティの不完全性に直面して、モデルがモダリティノイズを過度に適合させ、モダリティを欠く高い速度で性能の振動や低下を示すことを示唆している。
UMAEAは、不確実で曖昧な視覚的モダリティに対処するために設計された、堅牢なマルチモーダルエンティティアライメントアプローチである。
論文 参考訳(メタデータ) (2023-07-30T12:16:49Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Multimodal Relation Extraction with Cross-Modal Retrieval and Synthesis [89.04041100520881]
本研究は,対象物,文,画像全体に基づいて,テキストおよび視覚的証拠を検索することを提案する。
我々は,オブジェクトレベル,画像レベル,文レベル情報を合成し,同一性と異なるモダリティ間の推論を改善する新しい手法を開発した。
論文 参考訳(メタデータ) (2023-05-25T15:26:13Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。