論文の概要: Exploring Cognitive and Aesthetic Causality for Multimodal Aspect-Based Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2504.15848v1
- Date: Tue, 22 Apr 2025 12:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:26:36.912831
- Title: Exploring Cognitive and Aesthetic Causality for Multimodal Aspect-Based Sentiment Analysis
- Title(参考訳): マルチモーダルアスペクトに基づく感性分析のための認知的・審美的因果関係の探索
- Authors: Luwei Xiao, Rui Mao, Shuai Zhao, Qika Lin, Yanhao Jia, Liang He, Erik Cambria,
- Abstract要約: マルチモーダル・アスペクトベースの感情分類(MASC)は,ソーシャル・プラットフォーム上でのユーザ生成型マルチモーダル・コンテンツの増加による新たな課題である。
既存のMASCにおける多大な努力と重要な成果にもかかわらず、細かな視覚的内容の理解には大きなギャップが残っている。
本稿では,認知的・審美的感情因果理解フレームワークであるChimeraについて述べる。
- 参考スコア(独自算出の注目度): 34.100793905255955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal aspect-based sentiment classification (MASC) is an emerging task due to an increase in user-generated multimodal content on social platforms, aimed at predicting sentiment polarity toward specific aspect targets (i.e., entities or attributes explicitly mentioned in text-image pairs). Despite extensive efforts and significant achievements in existing MASC, substantial gaps remain in understanding fine-grained visual content and the cognitive rationales derived from semantic content and impressions (cognitive interpretations of emotions evoked by image content). In this study, we present Chimera: a cognitive and aesthetic sentiment causality understanding framework to derive fine-grained holistic features of aspects and infer the fundamental drivers of sentiment expression from both semantic perspectives and affective-cognitive resonance (the synergistic effect between emotional responses and cognitive interpretations). Specifically, this framework first incorporates visual patch features for patch-word alignment. Meanwhile, it extracts coarse-grained visual features (e.g., overall image representation) and fine-grained visual regions (e.g., aspect-related regions) and translates them into corresponding textual descriptions (e.g., facial, aesthetic). Finally, we leverage the sentimental causes and impressions generated by a large language model (LLM) to enhance the model's awareness of sentimental cues evoked by semantic content and affective-cognitive resonance. Experimental results on standard MASC datasets demonstrate the effectiveness of the proposed model, which also exhibits greater flexibility to MASC compared to LLMs such as GPT-4o. We have publicly released the complete implementation and dataset at https://github.com/Xillv/Chimera
- Abstract(参考訳): マルチモーダル・アスペクトベース感情分類(マルチモーダル・アスペクトベース感情分類、英: Multimodal aspect-based sentiment classification、MASC)は、特定のアスペクト・ターゲット(例えば、テキスト・イメージ・ペアで明示的に言及されるエンティティや属性)に対する感情の極性を予測することを目的とした、ソーシャル・プラットフォーム上のユーザ生成マルチモーダル・コンテンツの増加による、新たな課題である。
既存のMASCにおける広範な努力と重要な成果にもかかわらず、微粒な視覚的内容と意味的内容と印象(イメージ内容によって誘発される感情の認知的解釈)に由来する認知的合理性を理解することには、大きなギャップが残っている。
本研究では,認知的・審美的感情因果理解フレームワークであるChimeraについて,感情表現の基本的要因を意味的視点と感情的認知共鳴(感情的反応と認知的解釈の相乗効果)の両方から推測する。
具体的には、このフレームワークにはまず、パッチワードアライメントのための視覚パッチ機能が含まれている。
一方、粗粒度視覚特徴(例えば、全体像表現)と細粒度視覚領域(例えば、アスペクト関連領域)を抽出し、対応するテキスト記述(例えば、顔、美容)に変換する。
最後に,大言語モデル(LLM)が生み出す感情的原因と印象を利用して,意味的内容や感情的認知共鳴によって誘発される感情的手がかりに対する意識を高める。
標準MASCデータセットによる実験結果から提案モデルの有効性が示され, GPT-4o などの LLM と比較してMASC の柔軟性が向上した。
私たちはhttps://github.com/Xillv/Chimeraで完全な実装とデータセットを公開しました。
関連論文リスト
- Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。
しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。
テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文 参考訳(メタデータ) (2024-12-12T11:30:41Z) - UniEmoX: Cross-modal Semantic-Guided Large-Scale Pretraining for Universal Scene Emotion Perception [8.54013419046987]
視覚的感情分析のためのクロスモーダルな意味誘導型大規模事前学習フレームワークUniEmoXを紹介する。
UniEmoXは、ペア画像と未ペア画像テキストの類似性を利用して、CLIPモデルから豊富な意味知識を抽出し、感情的な埋め込み表現を強化する。
Emo8というタイトルの視覚的感情的データセットを開発し、ほとんどすべての感情的シーンをカバーしています。
論文 参考訳(メタデータ) (2024-09-27T16:12:51Z) - How Do You Perceive My Face? Recognizing Facial Expressions in Multi-Modal Context by Modeling Mental Representations [5.895694050664867]
本稿では,単純な分類タスクを超越した新しい表情分類手法を提案する。
本モデルでは,認識された顔を正確に分類し,文脈で顔を観察する際,人間によって知覚される対応する心的表現を合成する。
本研究では,人間の心的表現の近似を効果的に生成することを示す。
論文 参考訳(メタデータ) (2024-09-04T09:32:40Z) - Target-Dependent Multimodal Sentiment Analysis Via Employing Visual-to Emotional-Caption Translation Network using Visual-Caption Pairs [13.922091192207718]
本研究では,VECTN(Visual-to-Emotional-Caption Translation Network)と呼ばれる新しい手法を提案する。
この戦略の主な目的は、表情を分析して視覚的感情の手がかりを効果的に獲得することである。
得られた感情的手がかりとキャプションモードの目標属性を効果的に調整し、ブレンドする。
実験結果から,提案モデルが81.23%,マクロF1が80.61%の精度をTwitter-15データセット上で達成していることがわかった。
論文 参考訳(メタデータ) (2024-08-05T15:56:55Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - VISTANet: VIsual Spoken Textual Additive Net for Interpretable Multimodal Emotion Recognition [21.247650660908484]
本稿では、VISTANet(Visual Textual Additive Net)というマルチモーダル感情認識システムを提案する。
VISTANetは、早期と後期の融合のハイブリッドを用いて、画像、音声、テキストのモダリティから情報を融合する。
KAAP技術は、特定の感情のクラスを予測するために、各モダリティとそれに対応する特徴の寄与を計算する。
論文 参考訳(メタデータ) (2022-08-24T11:35:51Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Affective Image Content Analysis: Two Decades Review and New
Perspectives [132.889649256384]
我々は,過去20年間の情緒的イメージコンテンツ分析(AICA)の発展を包括的にレビューする。
我々は、感情的ギャップ、知覚主観性、ラベルノイズと欠如という3つの主要な課題に関して、最先端の手法に焦点を当てる。
画像の内容やコンテキスト理解,グループ感情クラスタリング,ビューアーとイメージのインタラクションなど,今後の課題や研究の方向性について論じる。
論文 参考訳(メタデータ) (2021-06-30T15:20:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。