Fugu-MT 論文翻訳(概要): Self-attention fusion for audiovisual emotion recognition with incomplete data

論文の概要: Self-attention fusion for audiovisual emotion recognition with incomplete data

arxiv url: http://arxiv.org/abs/2201.11095v1
Date: Wed, 26 Jan 2022 18:04:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-27 14:42:15.990866
Title: Self-attention fusion for audiovisual emotion recognition with incomplete data
Title（参考訳）: 不完全データを用いた視聴覚感情認識のためのセルフアテンション融合
Authors: Kateryna Chumachenko, Alexandros Iosifidis, Moncef Gabbouj
Abstract要約: 視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
参考スコア（独自算出の注目度）: 103.70855797025689
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we consider the problem of multimodal data analysis with a use case of audiovisual emotion recognition. We propose an architecture capable of learning from raw data and describe three variants of it with distinct modality fusion mechanisms. While most of the previous works consider the ideal scenario of presence of both modalities at all times during inference, we evaluate the robustness of the model in the unconstrained settings where one modality is absent or noisy, and propose a method to mitigate these limitations in a form of modality dropout. Most importantly, we find that following this approach not only improves performance drastically under the absence/noisy representations of one modality, but also improves the performance in a standard ideal setting, outperforming the competing methods.
Abstract（参考訳）: 本稿では,音声視覚感情認識を用いたマルチモーダルデータ解析の問題点について考察する。本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。先行研究の多くは推論中は常に両方のモダリティが存在するという理想的シナリオを考察しているが、一方のモダリティが欠落したりうるさかったりする制約のない環境でモデルの頑健性を評価し、これらの制限をモダリティドロップアウトの形で緩和する方法を提案する。最も重要なことに、このアプローチに従うと、1つのモダリティの欠如/ノイズ表現の下でパフォーマンスが劇的に向上するだけでなく、標準の理想設定におけるパフォーマンスも向上し、競合するメソッドよりも向上する。

関連論文リスト

Multi-modal expressive personality recognition in data non-ideal audiovisual based on multi-scale feature enhancement and modal augment [10.157685076725791]
視覚と聴覚の両方のデータ認識ネットワークに対して、エンドツーエンドのマルチモーダルパフォーマンスパーソナリティを確立する。マルチスケール機能拡張モジュールを提案する。本稿では,非理想的データシナリオをシミュレートするモーダルエンハンスメントトレーニング戦略を提案する。
論文参考訳（メタデータ） (2025-03-08T07:20:44Z)
Robust Latent Representation Tuning for Image-text Classification [9.789498730131607]
大規模モデルに対する頑健な潜在表現チューニング手法を提案する。提案手法では,モダリティ間の相関を最大化するために,モダリティ潜在翻訳モジュールを導入し,ロバストな表現を実現する。このフレームワークでは、トレーニング中に共通セマンティクスが洗練され、1つのモダリティがなくてもロバストなパフォーマンスが達成される。
論文参考訳（メタデータ） (2024-06-10T06:29:00Z)
A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition [53.800937914403654]
AVSR(Advanced Audio-Visual Speech Recognition)システムは、欠落したビデオフレームに敏感であることが観察されている。ビデオモダリティにドロップアウト技術を適用することで、フレーム不足に対するロバスト性が向上する一方、完全なデータ入力を扱う場合、同時に性能損失が発生する。本稿では,MDA-KD(Multimodal Distribution Approximation with Knowledge Distillation)フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-07T06:06:55Z)
Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文参考訳（メタデータ） (2023-03-31T10:53:24Z)
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文参考訳（メタデータ） (2023-03-10T14:38:49Z)
Flexible-modal Deception Detection with Audio-Visual Adapter [20.6514221670249]
本稿では,2つのモーダルの時間的特徴を効率的に融合する新しい枠組みを提案する。 2つのベンチマークデータセットを用いて実験を行った結果,提案手法は優れた性能が得られることが示された。
論文参考訳（メタデータ） (2023-02-11T15:47:20Z)
Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文参考訳（メタデータ） (2022-10-27T12:16:25Z)
On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-25T13:47:09Z)
Discriminative Multimodal Learning via Conditional Priors in Generative Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文参考訳（メタデータ） (2021-10-09T17:22:24Z)
Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文参考訳（メタデータ） (2020-11-03T11:18:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。