論文の概要: Continuous-Time Audiovisual Fusion with Recurrence vs. Attention for
In-The-Wild Affect Recognition
- arxiv url: http://arxiv.org/abs/2203.13285v1
- Date: Thu, 24 Mar 2022 18:22:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 13:07:32.836500
- Title: Continuous-Time Audiovisual Fusion with Recurrence vs. Attention for
In-The-Wild Affect Recognition
- Title(参考訳): In-The-Wild Affect Recognitionにおける再帰性と注意力による連続的視聴覚融合
- Authors: Vincent Karas, Mani Kumar Tellamekala, Adria Mallol-Ragolta, Michel
Valstar, Bj\"orn W. Schuller
- Abstract要約: 本稿では,第3報 ABAW (Affective Behavior Analysis in-the-Wild) 課題について述べる。
再帰性と注意(Recurrence and attention)は、文献で広く使われている2つのシーケンスモデリングメカニズムである。
LSTM-RNNは低コンプレックスCNNバックボーンと組み合わせることでアテンションモデルより優れていることを示す。
- 参考スコア(独自算出の注目度): 4.14099371030604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present our submission to 3rd Affective Behavior Analysis
in-the-wild (ABAW) challenge. Learningcomplex interactions among multimodal
sequences is critical to recognise dimensional affect from in-the-wild
audiovisual data. Recurrence and attention are the two widely used sequence
modelling mechanisms in the literature. To clearly understand the performance
differences between recurrent and attention models in audiovisual affect
recognition, we present a comprehensive evaluation of fusion models based on
LSTM-RNNs, self-attention and cross-modal attention, trained for valence and
arousal estimation. Particularly, we study the impact of some key design
choices: the modelling complexity of CNN backbones that provide features to the
the temporal models, with and without end-to-end learning. We trained the
audiovisual affect recognition models on in-the-wild ABAW corpus by
systematically tuning the hyper-parameters involved in the network architecture
design and training optimisation. Our extensive evaluation of the audiovisual
fusion models shows that LSTM-RNNs can outperform the attention models when
coupled with low-complex CNN backbones and trained in an end-to-end fashion,
implying that attention models may not necessarily be the optimal choice for
continuous-time multimodal emotion recognition.
- Abstract(参考訳): 本稿では,第3のABAW(Affective Behavior Analysis in-the-Wild)課題について述べる。
マルチモーダルシーケンス間の学習コンプレックス相互作用は、野生の視聴覚データから次元的影響を認識するために重要である。
再発と注意は、文献で広く使われている2つのシーケンスモデリングメカニズムである。
視覚的影響認識における再帰モデルと注意モデルのパフォーマンス差を明確にするために,LSTM-RNN,自己注意,相互注意に基づく統合モデルの総合評価を行った。
特に,時間モデルの特徴を提供するCNNバックボーンのモデル化複雑性について,エンド・ツー・エンドの学習の有無に関わらず,重要な設計選択の影響について検討する。
ネットワークアーキテクチャ設計とトレーニング最適化に係わるハイパーパラメータを体系的に調整することにより,ABAWコーパスの音響視覚的影響認識モデルを訓練した。
我々は,低複雑CNNバックボーンと結合し,エンドツーエンドで訓練することで,LSTM-RNNがアテンションモデルよりも優れており,アテンションモデルが必ずしもマルチモーダル感情認識の最適選択であるとは限らないことを示唆している。
関連論文リスト
- Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention [3.5803801804085347]
本稿では,クロスアテンショナル・フレームワークにおいて,共同音声・視覚的特徴表現が使用されるような,共同のクロスアテンショナル・モデルを提案する。
また,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討する。
その結果,本モデルでは,モーダル内関係とモーダル間関係を良好に捉えることにより,融合性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-03-07T16:57:45Z) - Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense
Interactions through Masked Modeling [24.346868432774453]
人間は聴覚情報と視覚情報を統合でき、周囲の環境をより深く理解することができる。
認知心理学と神経科学の研究を通じて実証された、音声と視覚の早期融合は、マルチモーダル知覚モデルを開発するための有望な可能性を提供する。
初期融合によるオーディオ・ビジュアル・エンコーダの訓練にマスク付き再構成フレームワークを活用することで、早期融合アーキテクチャの訓練に対処する。
本研究では,局所的な音声と視覚的表現の相互作用を捉え,細粒度な相互作用を捕捉するモデルの能力を向上する,注意に基づく融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-02T03:38:49Z) - Mapping EEG Signals to Visual Stimuli: A Deep Learning Approach to Match
vs. Mismatch Classification [28.186129896907694]
ビデオクリップが脳波信号の興奮応答を誘導するかどうかを分類する「マッチ-vs-mismatch」深層学習モデルを提案する。
提案手法は, 未知の被写体に対して最も精度の高いモデルを実現することができることを示す。
これらの結果は、ニューラル記録に基づくビデオ再構成の開発を促進する可能性がある。
論文 参考訳(メタデータ) (2023-09-08T06:37:25Z) - Multimodal Imbalance-Aware Gradient Modulation for Weakly-supervised
Audio-Visual Video Parsing [107.031903351176]
弱分離型音声視覚ビデオ解析(WS-AVVP)は、音声、視覚および音声視覚イベントインスタンスの時間的範囲をローカライズすることを目的としている。
WS-AVVPは、トレーニング用にビデオレベルのカテゴリラベルのみを使用して、対応するイベントカテゴリを特定することを目的としている。
論文 参考訳(メタデータ) (2023-07-05T05:55:10Z) - Recursive Joint Attention for Audio-Visual Fusion in Regression based
Emotion Recognition [15.643176705932396]
映像に基づく感情認識では、音声(A)と視覚(V)の相補的関係を活用することが重要である。
本稿では,AとVの相補的な性質を利用する可能性について,共同配置モデルを用いて検討する。
我々のモデルは、AとVの融合において、モーダル内関係とモーダル間関係の両方を効率的に利用することができる。
論文 参考訳(メタデータ) (2023-04-17T02:57:39Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Temporal Relevance Analysis for Video Action Models [70.39411261685963]
まず,CNNに基づく行動モデルにより捉えたフレーム間の時間的関係を定量化する手法を提案する。
次に、時間的モデリングがどのように影響を受けるかをよりよく理解するために、包括的な実験と詳細な分析を行います。
論文 参考訳(メタデータ) (2022-04-25T19:06:48Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - On the benefits of robust models in modulation recognition [53.391095789289736]
畳み込み層を用いたディープニューラルネットワーク(DNN)は、通信における多くのタスクにおいて最先端である。
画像分類のような他の領域では、DNNは敵の摂動に弱いことが示されている。
最新モデルの堅牢性をテストするための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-27T19:58:06Z) - The Role of Isomorphism Classes in Multi-Relational Datasets [6.419762264544509]
アイソモーフィックリークは,マルチリレーショナル推論の性能を過大評価することを示す。
モデル評価のためのアイソモーフィック・アウェア・シンセサイティング・ベンチマークを提案する。
また、同型類は単純な優先順位付けスキームによって利用することができることを示した。
論文 参考訳(メタデータ) (2020-09-30T12:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。