論文の概要: Noise-Resistant Multimodal Transformer for Emotion Recognition
- arxiv url: http://arxiv.org/abs/2305.02814v1
- Date: Thu, 4 May 2023 13:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 15:35:55.565195
- Title: Noise-Resistant Multimodal Transformer for Emotion Recognition
- Title(参考訳): 感情認識のための耐雑音マルチモーダルトランス
- Authors: Yuanyuan Liu, Haoyu Zhang, Yibing Zhan, Zijing Chen, Guanghao Yin, Lin
Wei and Zhe Chen
- Abstract要約: マルチモーダル感情認識は、ビデオ、テキスト、オーディオなどの様々なデータモダリティから人間の感情を認識する。
本稿では,パイプライン内の雑音に耐性のある特徴を抽出し,ノイズ認識学習方式を提案する。
我々の新しいパイプラインであるノイズ抵抗型マルチモーダルトランス(NORM-TR)は、主にノイズ抵抗型ジェネリック特徴抽出器(NRGF)とマルチモーダル感情認識タスクのためのトランスフォーマーを導入している。
- 参考スコア(独自算出の注目度): 17.319351916307884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal emotion recognition identifies human emotions from various data
modalities like video, text, and audio. However, we found that this task can be
easily affected by noisy information that does not contain useful semantics. To
this end, we present a novel paradigm that attempts to extract noise-resistant
features in its pipeline and introduces a noise-aware learning scheme to
effectively improve the robustness of multimodal emotion understanding. Our new
pipeline, namely Noise-Resistant Multimodal Transformer (NORM-TR), mainly
introduces a Noise-Resistant Generic Feature (NRGF) extractor and a Transformer
for the multimodal emotion recognition task. In particular, we make the NRGF
extractor learn a generic and disturbance-insensitive representation so that
consistent and meaningful semantics can be obtained. Furthermore, we apply a
Transformer to incorporate Multimodal Features (MFs) of multimodal inputs based
on their relations to the NRGF. Therefore, the possible insensitive but useful
information of NRGF could be complemented by MFs that contain more details. To
train the NORM-TR properly, our proposed noise-aware learning scheme
complements normal emotion recognition losses by enhancing the learning against
noises. Our learning scheme explicitly adds noises to either all the modalities
or a specific modality at random locations of a multimodal input sequence. We
correspondingly introduce two adversarial losses to encourage the NRGF
extractor to learn to extract the NRGFs invariant to the added noises, thus
facilitating the NORM-TR to achieve more favorable multimodal emotion
recognition performance. In practice, on several popular multimodal datasets,
our NORM-TR achieves state-of-the-art performance and outperforms existing
methods by a large margin, which demonstrates that the ability to resist noisy
information is important for effective emotion recognition.
- Abstract(参考訳): マルチモーダル感情認識は、ビデオ、テキスト、オーディオなどの様々なデータモダリティから人間の感情を認識する。
しかし,有用な意味論を含まないノイズ情報によって,このタスクは容易に影響を受けることが分かった。
この目的のために,パイプライン内のノイズ耐性特徴を抽出し,マルチモーダル感情理解の堅牢性を効果的に向上する雑音認識学習手法を提案する。
ノイズ耐性マルチモーダルトランスフォーマタ(norm-tr)と呼ばれる新しいパイプラインでは,主にノイズ耐性ジェネリック特徴抽出器とマルチモーダル感情認識タスク用トランスフォーマを導入する。
特に、NRGF抽出器は、一貫性と意味的な意味論が得られるように、汎用的で乱れのない表現を学習させる。
さらに、NRGFとの関係に基づき、マルチモーダル入力のマルチモーダル特徴(MF)を変換器に適用する。
したがって、NRGFの非感受性であるが有用な情報は、詳細を含むMFによって補完される可能性がある。
NORM-TRを適切に訓練するために,提案手法は雑音に対する学習を強化することで,通常の感情認識損失を補完する。
学習方式は,多モード入力シーケンスのランダムな位置において,すべてのモダリティまたは特定のモダリティに雑音を明示的に付加する。
そこで我々は、NRGF抽出器が付加ノイズに不変なNRGFを抽出することを学習し、NORM-TRによりより好ましいマルチモーダル感情認識性能を実現するために、2つの敵対的損失を導入する。
実際には、いくつかの一般的なマルチモーダルデータセットにおいて、NORM-TRは最先端のパフォーマンスを達成し、既存の手法を大きなマージンで上回り、ノイズに抵抗する能力が効果的な感情認識に重要であることを示す。
関連論文リスト
- Multi-Microphone and Multi-Modal Emotion Recognition in Reverberant Environment [11.063156506583562]
本稿では,難聴時の感情認識精度を高めるために,マルチモーダル感情認識(MER)システムを提案する。
提案手法は,マルチチャンネル音声処理のための階層型音声変換器(HTS-AT)とビデオ解析のためのR(2+1)D畳み込みニューラルネットワーク(CNN)モデルを組み合わせたものである。
論文 参考訳(メタデータ) (2024-09-14T21:58:39Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Revisiting Noise Resilience Strategies in Gesture Recognition: Short-Term Enhancement in Surface Electromyographic Signal Analysis [21.078713208075346]
短期拡張モジュール(STEM)は、様々なモデルと容易に統合できる。
1)手動データ拡張なしでノイズを低減できる難易度学習,2)様々なモデルに適応可能なスケーラビリティ,3)費用対効果,2)最小限のウェイトシェアリングによる短期的な強化を効率的な注意機構で達成する。
論文 参考訳(メタデータ) (2024-04-17T09:57:40Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Realistic Noise Synthesis with Diffusion Models [68.48859665320828]
Deep Image Denoisingモデルは、しばしば高品質なパフォーマンスのために大量のトレーニングデータに依存します。
本稿では,拡散モデル,すなわちRealistic Noise Synthesize Diffusor(RNSD)を用いて現実的な雑音を合成する新しい手法を提案する。
RNSDは、より現実的なノイズや空間的相関を複数の周波数で生成できるような、ガイド付きマルチスケールコンテンツを組み込むことができる。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - Robust Semantic Communications with Masked VQ-VAE Enabled Codebook [56.63571713657059]
本稿では,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。
セマンティックノイズに対処するため、重み付き対向トレーニングを開発し、トレーニングデータセットにセマンティックノイズを組み込む。
ノイズやタスク非関連の特徴を抑える機能重要モジュール (FIM) を開発した。
論文 参考訳(メタデータ) (2022-06-08T16:58:47Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z) - Multi-modal Residual Perceptron Network for Audio-Video Emotion
Recognition [0.22843885788439797]
ノイズを低減した深い特徴表現を生成するマルチモーダルネットワークブランチから学習するマルチモーダル残留パーセプトロンネットワーク(MRPN)を提案する。
提案したMPPNモデルとストリーミングデジタル映画の新たな時間拡張のために、最先端の平均認識率は91.4%に向上した。
論文 参考訳(メタデータ) (2021-07-21T13:11:37Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。