論文の概要: Accommodating Missing Modalities in Time-Continuous Multimodal Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2311.10119v1
- Date: Thu, 16 Nov 2023 09:22:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 15:51:23.597931
- Title: Accommodating Missing Modalities in Time-Continuous Multimodal Emotion
Recognition
- Title(参考訳): 時間連続マルチモーダル感情認識における欠如モダリティの適応
- Authors: Juan Vazquez-Rodriguez (M-PSI), Gr\'egoire Lefebvre, Julien Cumin,
James L. Crowley (M-PSI)
- Abstract要約: 本稿では,変圧器をベースとした時間連続的に原子価と覚醒を認識可能な新しいアーキテクチャを提案する。
我々は、時間的モダリティ間の関係を強調するために、クロスアテンションと自己アテンションの結合を利用する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decades of research indicate that emotion recognition is more effective when
drawing information from multiple modalities. But what if some modalities are
sometimes missing? To address this problem, we propose a novel
Transformer-based architecture for recognizing valence and arousal in a
time-continuous manner even with missing input modalities. We use a coupling of
cross-attention and self-attention mechanisms to emphasize relationships
between modalities during time and enhance the learning process on weak salient
inputs. Experimental results on the Ulm-TSST dataset show that our model
exhibits an improvement of the concordance correlation coefficient evaluation
of 37% when predicting arousal values and 30% when predicting valence values,
compared to a late-fusion baseline approach.
- Abstract(参考訳): 研究は、複数のモーダルから情報を引き出す場合、感情認識がより効果的であることを示している。
しかし、あるモダリティが欠けている場合はどうだろう?
そこで本研究では,入力モダリティの欠如にともなって,バレンスと覚醒を時間連続的に認識するトランスフォーマーアーキテクチャを提案する。
クロス・アテンションと自己アテンションの結合を用いて,時間間のモダリティ間の関係を強調し,弱いサルエント入力に対する学習プロセスを強化する。
ulm-tsstデータセットにおける実験結果から, 本モデルでは, 覚醒値予測時37%, 原子価値予測時30%の一致相関係数評価が, 後期流下基準法と比較して改善されていることが示された。
関連論文リスト
- Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition [3.5803801804085347]
本稿では,RJCMA(Recursive Joint Cross-Modal Attention)を導入し,音声,視覚,テキストの両モード間の相互関係を次元的感情認識のために捉える。
特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づく注目重みの計算を行う。
Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。
論文 参考訳(メタデータ) (2024-03-20T15:08:43Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Continuous-Time Audiovisual Fusion with Recurrence vs. Attention for
In-The-Wild Affect Recognition [4.14099371030604]
本稿では,第3報 ABAW (Affective Behavior Analysis in-the-Wild) 課題について述べる。
再帰性と注意(Recurrence and attention)は、文献で広く使われている2つのシーケンスモデリングメカニズムである。
LSTM-RNNは低コンプレックスCNNバックボーンと組み合わせることでアテンションモデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-03-24T18:22:56Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Cross Attentional Audio-Visual Fusion for Dimensional Emotion
Recognition [16.00029392324104]
最も効果的な感情認識技術は、多種多様な情報ソースを効果的に活用する。
本稿では,音声視覚(A-V)モダリティ間で有意な特徴を抽出するための相互注意型融合手法を提案する。
その結果、我々のA-V融合モデルは、最先端の融合アプローチよりも優れたコスト効率のアプローチであることが示唆された。
論文 参考訳(メタデータ) (2021-11-09T16:01:56Z) - Towards Unbiased Visual Emotion Recognition via Causal Intervention [63.74095927462]
本稿では,データセットバイアスによる負の効果を軽減するために,新しい感情認識ネットワーク(IERN)を提案する。
IERNの有効性を検証する一連の設計されたテストと、3つの感情ベンチマークの実験は、IERNが他の最先端のアプローチよりも優れていることを示した。
論文 参考訳(メタデータ) (2021-07-26T10:40:59Z) - Multi-view Integration Learning for Irregularly-sampled Clinical Time
Series [1.9639092030562577]
不規則な時系列データからの多視点機能統合学習をインピーダンスフリーで自己保持機構で提案する。
我々は,観測値の関連性,指標の欠如,連続観測間の時間間隔を同時に学習する。
我々は,マルチビュー観察における相互関係の表現学習を促進するために,注意に基づくデコーダを欠落値インプタとして構築する。
論文 参考訳(メタデータ) (2021-01-25T10:02:50Z) - One-shot Learning for Temporal Knowledge Graphs [49.41854171118697]
時間的知識グラフにおけるリンク予測のためのワンショット学習フレームワークを提案する。
提案手法は,実体間の時間的相互作用を効果的に符号化する自己認識機構を用いる。
実験の結果,提案アルゴリズムは2つのよく研究されたベンチマークにおいて,アートベースラインの状態よりも優れていた。
論文 参考訳(メタデータ) (2020-10-23T03:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。