論文の概要: Learning Noise-Robust Joint Representation for Multimodal Emotion Recognition under Incomplete Data Scenarios
- arxiv url: http://arxiv.org/abs/2311.16114v2
- Date: Tue, 7 May 2024 16:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 20:03:52.734639
- Title: Learning Noise-Robust Joint Representation for Multimodal Emotion Recognition under Incomplete Data Scenarios
- Title(参考訳): 不完全なデータシナリオ下でのマルチモーダル感情認識のためのノイズ・ロバスト共同表現の学習
- Authors: Qi Fan, Haolin Zuo, Rui Liu, Zheng Lian, Guanglai Gao,
- Abstract要約: 実践シナリオにおけるマルチモーダル感情認識(MER)は、欠落したデータや不完全なデータの存在によって著しく困難である。
従来の手法では、データを捨てたり、データセグメントをゼロベクトルで置換することで、これらの不完全性を近似することが多い。
本稿では,雑音データから頑健なマルチモーダル関節表現を効果的に学習する新しいノイズローバストMERモデルを提案する。
- 参考スコア(独自算出の注目度): 23.43319138048058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal emotion recognition (MER) in practical scenarios is significantly challenged by the presence of missing or incomplete data across different modalities. To overcome these challenges, researchers have aimed to simulate incomplete conditions during the training phase to enhance the system's overall robustness. Traditional methods have often involved discarding data or substituting data segments with zero vectors to approximate these incompletenesses. However, such approaches neither accurately represent real-world conditions nor adequately address the issue of noisy data availability. For instance, a blurry image cannot be simply replaced with zero vectors, and still retain information. To tackle this issue and develop a more precise MER system, we introduce a novel noise-robust MER model that effectively learns robust multimodal joint representations from noisy data. This approach includes two pivotal components: firstly, a noise scheduler that adjusts the type and level of noise in the data to emulate various realistic incomplete situations. Secondly, a Variational AutoEncoder (VAE)-based module is employed to reconstruct these robust multimodal joint representations from the noisy inputs. Notably, the introduction of the noise scheduler enables the exploration of an entirely new type of incomplete data condition, which is impossible with existing methods. Extensive experimental evaluations on the benchmark datasets IEMOCAP and CMU-MOSEI demonstrate the effectiveness of the noise scheduler and the excellent performance of our proposed model.
- Abstract(参考訳): 実践シナリオにおけるマルチモーダル感情認識(MER)は、異なるモダリティにまたがる欠落データや不完全データの存在によって、著しく困難である。
これらの課題を克服するために、研究者はシステム全体の堅牢性を高めるために、トレーニングフェーズ中に不完全な条件をシミュレートすることを目指している。
従来の手法では、データを捨てたり、データセグメントをゼロベクトルで置換することで、これらの不完全性を近似することが多い。
しかし、そのようなアプローチは現実の条件を正確に表現したり、ノイズの多いデータ可用性の問題に適切に対処したりはしない。
例えば、ぼやけた画像は単にゼロベクトルに置き換えることができず、情報を保持することはできない。
この問題に対処し、より正確なMERシステムを構築するために、雑音の多いデータからロバストなマルチモーダルな関節表現を効果的に学習する新しいノイズローバストMERモデルを提案する。
このアプローチには、まず、さまざまな現実的な不完全な状況をエミュレートするために、データのタイプとレベルのノイズを調整するノイズスケジューラという、2つの重要なコンポーネントが含まれている。
次に、可変オートエンコーダ(VAE)ベースのモジュールを用いて、ノイズ入力から頑健なマルチモーダルな関節表現を再構成する。
特に、ノイズスケジューラの導入により、既存の手法では不可能な全く新しいタイプの不完全なデータ条件の探索が可能になる。
ベンチマークデータセットであるIEMOCAPとCMU-MOSEIの大規模な実験により、ノイズスケジューラの有効性と提案モデルの優れた性能が示された。
関連論文リスト
- Robust Learning under Hybrid Noise [24.36707245704713]
本稿では,データリカバリの観点からハイブリッドノイズに対処するため,新たな統合学習フレームワーク"Feature and Label Recovery"(FLR)を提案する。
論文 参考訳(メタデータ) (2024-07-04T16:13:25Z) - Relation Modeling and Distillation for Learning with Noisy Labels [4.556974104115929]
本稿では,自己教師型学習を通して,サンプル間の関係をモデル化する関係モデリングと蒸留の枠組みを提案する。
提案手法は,ノイズの多いデータに対する識別表現を学習し,既存の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-05-30T01:47:27Z) - NoiseBench: Benchmarking the Impact of Real Label Noise on Named Entity Recognition [3.726602636064681]
そこで本研究では,実雑音がシミュレーションノイズよりもはるかに難易度が高いことを示す。
ノイズロスト学習の最先端モデルが理論的に達成可能な上限よりもはるかに低くなることを示す。
論文 参考訳(メタデータ) (2024-05-13T10:20:31Z) - Transferring Annotator- and Instance-dependent Transition Matrix for Learning from Crowds [88.06545572893455]
現実のクラウドソーシングシナリオでは、ノイズ遷移行列はアノテータとインスタンスに依存します。
まず、すべてのアノテータによるノイズパターンの混合をモデル化し、その後、個々のアノテータにこのモデリングを転送する。
実験により、合成および実世界のクラウドソーシングデータに対する提案手法の優位性が確認された。
論文 参考訳(メタデータ) (2023-06-05T13:43:29Z) - Realistic Noise Synthesis with Diffusion Models [68.48859665320828]
Deep Image Denoisingモデルは、しばしば高品質なパフォーマンスのために大量のトレーニングデータに依存します。
本稿では,拡散モデル,すなわちRealistic Noise Synthesize Diffusor(RNSD)を用いて現実的な雑音を合成する新しい手法を提案する。
RNSDは、より現実的なノイズや空間的相関を複数の周波数で生成できるような、ガイド付きマルチスケールコンテンツを組み込むことができる。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - Confidence-based Reliable Learning under Dual Noises [46.45663546457154]
ディープニューラルネットワーク(DNN)は、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
しかし、オープンワールドから収集されたデータはノイズによって必然的に汚染され、学習されたモデルの有効性を著しく損なう可能性がある。
データノイズ下でDNNを確実に訓練する様々な試みがなされているが、ラベルに存在するノイズと画像に存在するノイズを別々に考慮している。
この作業は、ジョイント(イメージ、ラベル)ノイズの下での信頼性学習のための、最初の統一されたフレームワークを提供する。
論文 参考訳(メタデータ) (2023-02-10T07:50:34Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Uncertainty-Aware Multi-View Representation Learning [53.06828186507994]
動的不確実性認識ネットワーク(DUA-Nets)と呼ばれる新しい教師なし多視点学習手法を考案する。
生成視点から推定されるデータの不確実性により、複数の視点からの固有情報が統合され、ノイズのない表現が得られる。
本モデルでは, 広範囲な実験において優れた性能を示し, ノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2022-01-15T07:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。