論文の概要: Multimodal Fusion Method with Spatiotemporal Sequences and Relationship Learning for Valence-Arousal Estimation
- arxiv url: http://arxiv.org/abs/2403.12425v1
- Date: Tue, 19 Mar 2024 04:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 15:22:07.563196
- Title: Multimodal Fusion Method with Spatiotemporal Sequences and Relationship Learning for Valence-Arousal Estimation
- Title(参考訳): 時空間列を用いた多モーダル融合法と相関学習による有理-覚醒推定
- Authors: Jun Yu, Gongpeng Zhao, Yongqi Wan, Zhihong Wei, Yang Zheng, Zerui Zhang, Zhongpeng Cai, Guochen Xie, Jichao Zhu, Wangyuan Zhu,
- Abstract要約: 本稿では,ABA6コンペティションにおけるVA(Valence-Arousal)推定タスクに対するアプローチを提案する。
映像フレームと音声セグメントを前処理して視覚的・音声的特徴を抽出する包括的モデルを考案した。
我々は、Transformerエンコーダ構造を用いて長距離依存を学習し、モデルの性能と一般化能力を向上させる。
- 参考スコア(独自算出の注目度): 9.235001108781542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our approach for the VA (Valence-Arousal) estimation task in the ABAW6 competition. We devised a comprehensive model by preprocessing video frames and audio segments to extract visual and audio features. Through the utilization of Temporal Convolutional Network (TCN) modules, we effectively captured the temporal and spatial correlations between these features. Subsequently, we employed a Transformer encoder structure to learn long-range dependencies, thereby enhancing the model's performance and generalization ability. Our method leverages a multimodal data fusion approach, integrating pre-trained audio and video backbones for feature extraction, followed by TCN-based spatiotemporal encoding and Transformer-based temporal information capture. Experimental results demonstrate the effectiveness of our approach, achieving competitive performance in VA estimation on the AffWild2 dataset.
- Abstract(参考訳): 本稿では,ABAW6コンペティションにおけるVA(Valence-Arousal)推定課題について述べる。
映像フレームと音声セグメントを前処理して視覚的・音声的特徴を抽出する包括的モデルを考案した。
時間的畳み込みネットワーク(TCN)モジュールの利用により,これらの特徴間の時間的および空間的相関を効果的に捉えた。
その後、Transformerエンコーダ構造を用いて長距離依存を学習し、モデルの性能と一般化能力を向上させる。
提案手法はマルチモーダルデータ融合手法を利用して,事前学習した音声とビデオのバックボーンを特徴抽出に利用し,次にTCNベースの時空間符号化とTransformerベースの時間情報キャプチャを行う。
AffWild2データセットを用いたVA推定において,提案手法の有効性を示す実験結果が得られた。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts [8.809586885539002]
音声・視覚的マルチモーダルデータを利用した新しい手法を提案する。
本手法は,Mel Frequency Cepstral Coefficients (MFCC) とLog-Mel Spectrogram を,事前学習したVGGishネットワークと共に利用することにより,音声特徴抽出を強化する。
本手法は,データの時間的・文脈的ニュアンスを理解することにより,AU検出の精度を著しく向上させ,複雑なシナリオの理解における重要な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T15:37:19Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Temporal Contrastive Learning with Curriculum [19.442685015494316]
ConCurは、カリキュラム学習を用いて動的サンプリング戦略を課すコントラスト型ビデオ表現学習法である。
提案手法は,UCF101とHMDB51という2つの一般的な行動認識データセットを用いて実験を行い,その有効性を実証した。
論文 参考訳(メタデータ) (2022-09-02T00:12:05Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional
Emotion Recognition [57.766837326063346]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。