論文の概要: MDAN: Multi-level Dependent Attention Network for Visual Emotion
Analysis
- arxiv url: http://arxiv.org/abs/2203.13443v1
- Date: Fri, 25 Mar 2022 04:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:31:40.747090
- Title: MDAN: Multi-level Dependent Attention Network for Visual Emotion
Analysis
- Title(参考訳): mdan: 視覚感情分析のための多レベル依存注意ネットワーク
- Authors: Liwen Xu, Zhengtao Wang, Bin Wu, Simon Lui
- Abstract要約: 視覚感情分析の最大の課題の1つは、画像内の視覚的手がかりと、画像によって表現される感情の間のギャップを埋めることである。
既存のアプローチは、1ショットで世界規模で感情の差別を直接学習することでギャップを埋めようとしている。
本稿では,感情階層と感情レベルの違いと意味レベルとの相関性を活用するために,MDAN(Multi-level Dependent Attention Network)を2つのブランチで提案する。
- 参考スコア(独自算出の注目度): 5.348433661182874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Emotion Analysis (VEA) is attracting increasing attention. One of the
biggest challenges of VEA is to bridge the affective gap between visual clues
in a picture and the emotion expressed by the picture. As the granularity of
emotions increases, the affective gap increases as well. Existing deep
approaches try to bridge the gap by directly learning discrimination among
emotions globally in one shot without considering the hierarchical relationship
among emotions at different affective levels and the affective level of
emotions to be classified. In this paper, we present the Multi-level Dependent
Attention Network (MDAN) with two branches, to leverage the emotion hierarchy
and the correlation between different affective levels and semantic levels. The
bottom-up branch directly learns emotions at the highest affective level and
strictly follows the emotion hierarchy while predicting emotions at lower
affective levels. In contrast, the top-down branch attempt to disentangle the
affective gap by one-to-one mapping between semantic levels and affective
levels, namely, Affective Semantic Mapping. At each semantic level, a local
classifier learns discrimination among emotions at the corresponding affective
level. Finally, We integrate global learning and local learning into a unified
deep framework and optimize the network simultaneously. Moreover, to properly
extract and leverage channel dependencies and spatial attention while
disentangling the affective gap, we carefully designed two attention modules:
the Multi-head Cross Channel Attention module and the Level-dependent Class
Activation Map module. Finally, the proposed deep framework obtains new
state-of-the-art performance on six VEA benchmarks, where it outperforms
existing state-of-the-art methods by a large margin, e.g., +3.85% on the WEBEmo
dataset at 25 classes classification accuracy.
- Abstract(参考訳): 視覚感情分析(VEA)が注目を集めている。
VEAの最大の課題の1つは、画像内の視覚的手がかりと、画像によって表現される感情の間の感情的ギャップを埋めることである。
感情の粒度が増加するにつれて、感情的ギャップも増加する。
既存の深いアプローチは、感情の階層的関係を異なる感情レベルと分類すべき感情の感情レベルを考慮せずに、世界規模で感情の差別を直接学習することでギャップを埋めようとしている。
本稿では,感情階層と異なる感情レベルと意味レベルとの相関性を活用するために,2つの分枝を持つマルチレベル依存注意ネットワーク(mdan)を提案する。
ボトムアップ・ブランチは感情の最も高いレベルで直接学習し、感情の階層を厳密に追従し、低い感情レベルの感情を予測する。
対照的にトップダウンのブランチは、意味レベルと感情レベル、すなわちAffective Semantic Mappingを1対1でマッピングすることで、感情ギャップを解消しようとする。
各意味レベルでは、局所分類器は対応する感情レベルで感情の識別を学習する。
最後に、グローバルラーニングとローカルラーニングを統一したディープフレームワークに統合し、ネットワークを最適化する。
さらに,感情的ギャップを解消しつつ,チャネル依存性や空間的注意を適切に抽出・活用するために,マルチヘッドクロスチャネルアテンションモジュールとレベル依存クラスアクティベーションマップモジュールという2つのアテンションモジュールを慎重に設計した。
最後に、提案したディープフレームワークは、6つのVEAベンチマークで新しい最先端性能を取得し、25クラスの分類精度でWEBEMOデータセットで+3.85%という大きなマージンで既存の最先端メソッドを上回ります。
関連論文リスト
- Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion
Recognition [32.34485263348587]
マルチモーダル感情分析(MSA)と会話における感情認識(ERC)は、コンピュータが人間の行動を理解する上で重要な研究課題である。
我々は,MSAとERCタスクを特徴,ラベル,モデルから統合するマルチモーダル感情知識共有フレームワーク(UniMSE)を提案する。
我々は、統語的・意味的なレベルでモダリティ融合を行い、感情と感情の差異と一貫性をよりよく捉えるために、モダリティとサンプルの対比学習を導入する。
論文 参考訳(メタデータ) (2022-11-21T08:46:01Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Attention-based Region of Interest (ROI) Detection for Speech Emotion
Recognition [4.610756199751138]
本研究では,深部脳神経回路網における注意機構を用いて,人間の感情的音声/ビデオにおいてより感情的に有意な関心領域(ROI)を検出することを提案する。
6つの基本的な人間の感情を認識する多クラス分類タスクにおいて,提案した注目ネットワークと最先端のLSTMモデルの性能を比較した。
論文 参考訳(メタデータ) (2022-03-03T22:01:48Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - Multi-Classifier Interactive Learning for Ambiguous Speech Emotion
Recognition [9.856709988128515]
曖昧な発話感情に対処するために,MCIL (Multi-classifier Interactive Learning) 法を提案する。
MCILは、曖昧な感情の無矛盾な認識を持つ複数の個人を模倣し、新しい曖昧なラベルを構築する。
実験では、MCILは各分類器のパフォーマンスを向上させるだけでなく、認識の一貫性を中程度から実質的に向上させる。
論文 参考訳(メタデータ) (2020-12-10T02:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。