論文の概要: Continuous Emotion Recognition using Visual-audio-linguistic
information: A Technical Report for ABAW3
- arxiv url: http://arxiv.org/abs/2203.13031v1
- Date: Thu, 24 Mar 2022 12:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 15:00:04.818376
- Title: Continuous Emotion Recognition using Visual-audio-linguistic
information: A Technical Report for ABAW3
- Title(参考訳): 音声言語情報を用いた連続感情認識:ABAW3の技術報告
- Authors: Su Zhang, Ruyi An, Yi Ding, Cuntai Guan
- Abstract要約: 連続的感情認識のためのクロスモーダルコアテンションモデル
視覚、音声、言語ブロックは、マルチモーダル入力の特徴を学ぶために使用される。
トレーニングおよび検証セット上でクロスバリデーションを行う。
- 参考スコア(独自算出の注目度): 15.077019278082673
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a cross-modal co-attention model for continuous emotion
recognition using visual-audio-linguistic information. The model consists of
four blocks. The visual, audio, and linguistic blocks are used to learn the
spatial-temporal features of the multimodal input. A co-attention block is
designed to fuse the learned enbeddings with the multihead co-attention
mechanism. The visual encoding from the visual block is concatenated with the
attention feature to emphasize the visual information. To make full use of the
data and alleviate over-fitting, the cross-validation is carried out on the
training and validation set. The concordance correlation coefficient (CCC)
centering is used to merge the results from each fold. The achieved CCC on
validation set is 0.450 for valence and 0.651 for arousal, which significantly
outperforms the baseline method with the corresponding CCC of 0.310 and 0.170,
respectively. The code is available at https://github.com/sucv/ABAW3.
- Abstract(参考訳): 視覚言語情報を用いた連続感情認識のためのクロスモーダルコアテンションモデルを提案する。
モデルは4つのブロックで構成される。
視覚、音声、言語ブロックは、マルチモーダル入力の空間-時間的特徴を学ぶために使用される。
コアテンションブロックは、学習したエンベディングをマルチヘッドコアテンション機構で融合するように設計されている。
視覚ブロックからの視覚的エンコーディングは、視覚情報を強調するために注意特徴と連結される。
データを完全に活用し、過度な適合を緩和するために、トレーニングおよび検証セット上でクロスバリデーションを行う。
コンコータンス相関係数(CCC)中心は、各折り目から結果をマージするために用いられる。
バリデーションセットの達成されたcccは、valence の 0.450 と arousal の 0.651 であり、それぞれ 0.310 と 0.170 の基準の ccc を大きく上回っている。
コードはhttps://github.com/sucv/abaw3で入手できる。
関連論文リスト
- KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Self-Relation Attention and Temporal Awareness for Emotion Recognition
via Vocal Burst [4.6193503399184275]
The ACII Affective Vocal Bursts (A-VB) 2022 Workshop & Competitionにおいて、高次元感情タスク(A-VB High)に対する感情認識パイプラインを報告した。
実験により,提案手法はベースラインモデルでは0.5686に対して,テストセットでは0.7295の平均相関係数(CCC)を達成する。
論文 参考訳(メタデータ) (2022-09-15T22:06:42Z) - Learning Audio-Visual embedding for Wild Person Verification [18.488385598522125]
本稿では,融合の観点からアグリゲータを考慮した音声視覚ネットワークを提案する。
顔認証において初めて注意統計のプールを改良した。
最後に、モダリティをゲートアテンション機構で融合する。
論文 参考訳(メタデータ) (2022-09-09T02:29:47Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Audio-visual Attentive Fusion for Continuous Emotion Recognition [12.211342881526276]
本稿では,(1)事前学習した2D-CNNを含む視覚ブロックと,(2)複数の並列TNを含む聴覚ブロック,(3)オーディオ視覚情報を組み合わせたリーダ・フォロワー注意融合ブロックを提案する。
論文 参考訳(メタデータ) (2021-07-02T16:28:55Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - X-Linear Attention Networks for Image Captioning [124.48670699658649]
視覚情報を利用したり,マルチモーダル推論を行ったりするために,バイリニアプールを完全に活用した統一型アテンションブロック-X-Linearアテンションブロックを導入する。
X-LANは、X-Linearアテンションブロックを画像エンコーダと画像キャプションモデルの文デコーダに統合し、高次のイントラモーダルインタラクションとインターモーダルインタラクションを活用する。
COCOベンチマークの実験により、我々のX-LANはCOCOカルパシーテストのスプリットで132.0%の最高のCIDEr性能を得ることができた。
論文 参考訳(メタデータ) (2020-03-31T10:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。