論文の概要: M2R2: Missing-Modality Robust emotion Recognition framework with
iterative data augmentation
- arxiv url: http://arxiv.org/abs/2205.02524v1
- Date: Thu, 5 May 2022 09:16:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-07 01:11:02.878130
- Title: M2R2: Missing-Modality Robust emotion Recognition framework with
iterative data augmentation
- Title(参考訳): M2R2: 反復データ拡張によるミスモードロバスト感情認識フレームワーク
- Authors: Ning Wang
- Abstract要約: 学習された共通表現による反復的データ拡張で感情認識モデルを訓練するミス・モダリティ・ロバスト感情認識(M2R2)を提案する。
Party Attentive Network (PANet)は、すべての話者の状態と状況を追跡する感情を分類するために設計された。
- 参考スコア(独自算出の注目度): 6.962213869946514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper deals with the utterance-level modalities missing problem with
uncertain patterns on emotion recognition in conversation (ERC) task. Present
models generally predict the speaker's emotions by its current utterance and
context, which is degraded by modality missing considerably. Our work proposes
a framework Missing-Modality Robust emotion Recognition (M2R2), which trains
emotion recognition model with iterative data augmentation by learned common
representation. Firstly, a network called Party Attentive Network (PANet) is
designed to classify emotions, which tracks all the speakers' states and
context. Attention mechanism between speaker with other participants and
dialogue topic is used to decentralize dependence on multi-time and multi-party
utterances instead of the possible incomplete one. Moreover, the Common
Representation Learning (CRL) problem is defined for modality-missing problem.
Data imputation methods improved by the adversarial strategy are used here to
construct extra features to augment data. Extensive experiments and case
studies validate the effectiveness of our methods over baselines for
modality-missing emotion recognition on two different datasets.
- Abstract(参考訳): 本稿では,会話(ERC)タスクにおける感情認識に不確実なパターンを持つ発話レベルのモダリティの欠如に対処する。
現在のモデルは一般的に、現在の発話と文脈によって話者の感情を予測するが、モダリティの欠如により格段に劣化する。
本研究は,学習された共通表現による反復的データ拡張による感情認識モデルを訓練するフレームワークであるMissing-Modality Robust emotion Recognition (M2R2)を提案する。
まず、PANet(Party Attentive Network)と呼ばれるネットワークは、すべての話者の状態と状況を追跡する感情を分類するために設計されている。
話者と他の参加者との注意機構と対話トピックは、不可能な発話ではなく、マルチタイムおよびマルチパーティ発話への依存を分散化するために使用される。
さらに、モダリティ欠落問題に対して、共通表現学習(CRL)問題を定義する。
逆戦略によって改善されたデータインプテーションメソッドは、データ拡張のための追加機能を構築するために使用される。
2つの異なるデータセットにおけるモダリティミス感情認識におけるベースラインよりも提案手法の有効性を,広範な実験とケーススタディで検証した。
関連論文リスト
- Robust Facial Reactions Generation: An Emotion-Aware Framework with Modality Compensation [27.2792182180834]
感情認識型モダリティ補償(EMC)フレームワークを提案する。
我々のフレームワークは、欠落したモダリティデータに直面するときのレジリエンスを保証する。
Emotion-Aware Attention (EA)モジュールを通じて、より適切な感情認識反応を生成する。
論文 参考訳(メタデータ) (2024-07-22T17:00:02Z) - Two in One Go: Single-stage Emotion Recognition with Decoupled Subject-context Transformer [78.35816158511523]
単段階の感情認識手法として,DSCT(Decoupled Subject-Context Transformer)を用いる。
広範に使われている文脈認識型感情認識データセットであるCAER-SとEMOTICの単段階フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-04-26T07:30:32Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Deep Imbalanced Learning for Multimodal Emotion Recognition in
Conversations [15.705757672984662]
会話におけるマルチモーダル感情認識(MERC)は、マシンインテリジェンスにとって重要な開発方向である。
MERCのデータの多くは自然に感情カテゴリーの不均衡な分布を示しており、研究者は感情認識に対する不均衡なデータの負の影響を無視している。
生データにおける感情カテゴリーの不均衡分布に対処するクラス境界拡張表現学習(CBERL)モデルを提案する。
我々は,IEMOCAPおよびMELDベンチマークデータセットの広範な実験を行い,CBERLが感情認識の有効性において一定の性能向上を達成したことを示す。
論文 参考訳(メタデータ) (2023-12-11T12:35:17Z) - 'What are you referring to?' Evaluating the Ability of Multi-Modal
Dialogue Models to Process Clarificational Exchanges [65.03196674816772]
参照表現が宛先に対して意図された参照を一意に識別しない場合、参照の曖昧さが対話で生じる。
出席者は、通常、そのような曖昧さをすぐに検知し、メタコミュニケーション、明確化取引所(CE: Meta-communicative, Clarification Exchanges)を使用して、話者と作業する。
ここでは、CRを生成・応答する能力は、マルチモーダルな視覚的基盤を持つ対話モデルのアーキテクチャと目的関数に特定の制約を課していると論じる。
論文 参考訳(メタデータ) (2023-07-28T13:44:33Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Dual Semantic Knowledge Composed Multimodal Dialog Systems [114.52730430047589]
本稿では,MDS-S2という新しいマルチモーダルタスク指向対話システムを提案する。
コンテキスト関連属性と関係知識を知識ベースから取得する。
また、合成された応答表現から意味情報を抽出するために、潜在クエリ変数のセットを考案する。
論文 参考訳(メタデータ) (2023-05-17T06:33:26Z) - EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。
EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。
実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。