論文の概要: Multimodal End-to-End Group Emotion Recognition using Cross-Modal
Attention
- arxiv url: http://arxiv.org/abs/2111.05890v1
- Date: Wed, 10 Nov 2021 19:19:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-12 15:32:11.113591
- Title: Multimodal End-to-End Group Emotion Recognition using Cross-Modal
Attention
- Title(参考訳): クロスモーダルアテンションを用いたマルチモーダルエンドツーエンドグループ感情認識
- Authors: Lev Evtodienko
- Abstract要約: グループレベルの感情を分類することは、ビデオの複雑さのために難しい課題である。
VGAFデータセットベースラインよりも約8.5%高い60.37%の検証精度が得られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Classifying group-level emotions is a challenging task due to complexity of
video, in which not only visual, but also audio information should be taken
into consideration. Existing works on multimodal emotion recognition are using
bulky approach, where pretrained neural networks are used as a feature
extractors and then extracted features are being fused. However, this approach
does not consider attributes of multimodal data and feature extractors cannot
be fine-tuned for specific task which can be disadvantageous for overall model
accuracy. To this end, our impact is twofold: (i) we train model end-to-end,
which allows early layers of neural network to be adapted with taking into
account later, fusion layers, of two modalities; (ii) all layers of our model
was fine-tuned for downstream task of emotion recognition, so there were no
need to train neural networks from scratch. Our model achieves best validation
accuracy of 60.37% which is approximately 8.5% higher, than VGAF dataset
baseline and is competitive with existing works, audio and video modalities.
- Abstract(参考訳): グループレベルの感情を分類することは、映像の複雑さのために難しい課題であり、視覚だけでなく、音声情報も考慮すべきである。
既存のマルチモーダル感情認識の研究では、トレーニング済みのニューラルネットワークを特徴抽出器として使用し、抽出された特徴を融合させるという、バルクなアプローチを採用している。
しかし、このアプローチはマルチモーダルデータの属性を考慮せず、モデル全体の精度に不利な特定のタスクに対して特徴抽出器を微調整することはできない。
この結果、私たちの影響は2倍になります。
i) ニューラルネットワークの初期の層を、2つのモダリティの融合層を考慮に入れて適応させることができるモデルエンドツーエンドを訓練する。
(II) モデルの全層は感情認識の下流タスクのために微調整されていたため、ニューラルネットワークをゼロからトレーニングする必要はない。
我々のモデルは,VGAFデータセットベースラインよりも約8.5%高い60.37%の検証精度を達成し,既存の作業,オーディオ,ビデオのモダリティと競合する。
関連論文リスト
- Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - Deception Detection from Linguistic and Physiological Data Streams Using Bimodal Convolutional Neural Networks [19.639533220155965]
本稿では,畳み込み型ニューラルネットワークのマルチモーダルな騙し検出への応用について検討する。
2つのトピックについて104人の被験者にインタビューして構築したデータセットを使用します。
論文 参考訳(メタデータ) (2023-11-18T02:44:33Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Sparse Interaction Additive Networks via Feature Interaction Detection
and Sparse Selection [10.191597755296163]
我々は,必要な特徴の組み合わせを効率的に識別する,抽出可能な選択アルゴリズムを開発した。
提案するスパース・インタラクション・アダプティブ・ネットワーク(SIAN)は,単純かつ解釈可能なモデルから完全に接続されたニューラルネットワークへのブリッジを構築する。
論文 参考訳(メタデータ) (2022-09-19T19:57:17Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion
Recognition? [36.67937514793215]
クロスモーダル・アテンションはマルチモーダル核融合の有効なメカニズムであると考えられている。
クロスアテンションモデルと自己アテンションモデルを実装し,比較する。
7クラス感情分類タスクにおいて,異なるモードの組み合わせを用いたモデルの比較を行った。
論文 参考訳(メタデータ) (2022-02-18T15:44:14Z) - CBIR using Pre-Trained Neural Networks [1.2130044156459308]
我々は、事前訓練されたインセプションV3モデルを用いて、画像の低次元表現を形成する最後の完全連結層の活性化を抽出する。
この特徴行列を分岐に分割し、各分岐に対して別個の特徴抽出を行い、ベクトルに平坦化された複数の特徴を得る。
トレーニング精度99.46%、バリデーション精度84.56%を達成しました。
論文 参考訳(メタデータ) (2021-10-27T14:19:48Z) - Multimodal End-to-End Sparse Model for Emotion Recognition [40.71488291980002]
2つのフェーズを繋ぐ完全エンドツーエンドのモデルを開発し、それらを共同で最適化します。
また、エンドツーエンドのトレーニングを可能にするために、現在のデータセットを再構成します。
実験結果から,我々の完全エンドツーエンドモデルは現在の最先端モデルを大きく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-03-17T14:05:05Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。