論文の概要: Audio-visual Attentive Fusion for Continuous Emotion Recognition
- arxiv url: http://arxiv.org/abs/2107.01175v1
- Date: Fri, 2 Jul 2021 16:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 12:44:40.117139
- Title: Audio-visual Attentive Fusion for Continuous Emotion Recognition
- Title(参考訳): 連続感情認識のための視聴覚・視聴覚融合
- Authors: Su Zhang, Yi Ding, Ziquan Wei, Cuntai Guan
- Abstract要約: 本稿では,(1)事前学習した2D-CNNを含む視覚ブロックと,(2)複数の並列TNを含む聴覚ブロック,(3)オーディオ視覚情報を組み合わせたリーダ・フォロワー注意融合ブロックを提案する。
- 参考スコア(独自算出の注目度): 12.211342881526276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an audio-visual spatial-temporal deep neural network with: (1) a
visual block containing a pretrained 2D-CNN followed by a temporal
convolutional network (TCN); (2) an aural block containing several parallel
TCNs; and (3) a leader-follower attentive fusion block combining the
audio-visual information. The TCN with large history coverage enables our model
to exploit spatial-temporal information within a much larger window length
(i.e., 300) than that from the baseline and state-of-the-art methods (i.e., 36
or 48). The fusion block emphasizes the visual modality while exploits the
noisy aural modality using the inter-modality attention mechanism. To make full
use of the data and alleviate over-fitting, cross-validation is carried out on
the training and validation set. The concordance correlation coefficient (CCC)
centering is used to merge the results from each fold. On the development set,
the achieved CCC is 0.410 for valence and 0.661 for arousal, which
significantly outperforms the baseline method with the corresponding CCC of
0.210 and 0.230 for valence and arousal, respectively. The code is available at
https://github.com/sucv/ABAW2.
- Abstract(参考訳): 本稿では,(1)事前訓練された2d-cnnと時間畳み込みネットワーク(tcn)を含む視覚ブロック,(2)複数の並列tcnを含むオーラルブロック,(3)音声・視覚情報を結合したリーダ・フォロー・アテンション・フュージョンブロックという,視聴覚・時空間深層ニューラルネットワークを提案する。
大規模な履歴カバレッジを持つttnは、ベースラインや最先端の手法(36または48)よりもずっと大きなウィンドウ長(つまり300)で空間-時間情報を利用することができる。
融合ブロックは視覚モダリティを強調しつつ、ノイズのオーラルモダリティを相互モダリティ注意機構を用いて活用する。
データの完全活用と過度な適合を軽減するため、トレーニングおよび検証セット上でクロスバリデーションを行う。
コンコータンス相関係数(CCC)中心は、各折り目から結果をマージするために用いられる。
現像セットでは、得られたcccはvalence 0.410、arousal 0.661であり、対応するcccはvalence 0.210、arousal 0.230である。
コードはhttps://github.com/sucv/abaw2で入手できる。
関連論文リスト
- SCVCNet: Sliding cross-vector convolution network for cross-task and
inter-individual-set EEG-based cognitive workload recognition [15.537230343119875]
本稿では,脳波パターンを利用した認知作業量認識装置の汎用的手法を提案する。
パワースペクトル密度の微細な周波数構造を解析することにより,脳波のタスクおよび個々のセットに関する干渉を除去するSCVCNetというニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-21T13:06:30Z) - Connecting Multi-modal Contrastive Representations [50.26161419616139]
マルチモーダルコントラスト表現学習は、異なるモダリティを意味的に共有された空間に符号化することを目的としている。
本稿では,C-MCR(Connecting Multi-Modal Contrastive Representations)と呼ばれるペアデータなしでMCRを学習するための,新たな学習効率向上手法を提案する。
C-MCRは、オーディオ画像検索、オーディオ画像のソースローカライゼーション、および対実的なオーディオ画像認識タスクにおいて、最先端のオーディオ映像のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-22T09:44:39Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - Continuous Emotion Recognition using Visual-audio-linguistic
information: A Technical Report for ABAW3 [15.077019278082673]
連続的感情認識のためのクロスモーダルコアテンションモデル
視覚、音声、言語ブロックは、マルチモーダル入力の特徴を学ぶために使用される。
トレーニングおよび検証セット上でクロスバリデーションを行う。
論文 参考訳(メタデータ) (2022-03-24T12:18:06Z) - TC-Net: Triple Context Network for Automated Stroke Lesion Segmentation [0.5482532589225552]
本稿では,空間的コンテキスト情報を中心として,新たなネットワークである Triple Context Network (TC-Net) を提案する。
我々のネットワークはオープンデータセットATLASで評価され、最高スコアは0.594、ハウスドルフ距離は27.005mm、平均対称性表面距離は7.137mmである。
論文 参考訳(メタデータ) (2022-02-28T11:12:16Z) - Real-time Speaker counting in a cocktail party scenario using
Attention-guided Convolutional Neural Network [60.99112031408449]
重なり合う音声におけるアクティブ話者数を推定するために,CNN(Real-time, Single-channel attention-guided Convolutional Neural Network)を提案する。
提案システムは,CNNモデルを用いて音声スペクトルから高レベル情報を抽出する。
WSJコーパスを用いた重畳音声のシミュレーション実験により,従来の時間平均プーリングに比べて,注意解がほぼ3%向上することが示されている。
論文 参考訳(メタデータ) (2021-10-30T19:24:57Z) - Attention-based Neural Beamforming Layers for Multi-channel Speech
Recognition [17.009051842682677]
畳み込みニューラルネットワークとビームフォーミングに注目した2D Conv-Attentionモジュールを提案する。
入力チャネル間の相関関係を明確にモデル化するために、自己およびクロスアテンションを適用します。
その結果,ベースラインニューラルビームフォーマに対する提案モデルによるwerの3.8%の相対的改善が認められた。
論文 参考訳(メタデータ) (2021-05-12T19:32:24Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。