論文の概要: Detail-Enhanced Intra- and Inter-modal Interaction for Audio-Visual Emotion Recognition
- arxiv url: http://arxiv.org/abs/2405.16701v1
- Date: Sun, 26 May 2024 21:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:48:31.472222
- Title: Detail-Enhanced Intra- and Inter-modal Interaction for Audio-Visual Emotion Recognition
- Title(参考訳): ディテール・イントラモーダル・イントラモーダル・インタラクションによる音声・視覚的感情認識
- Authors: Tong Shi, Xuri Ge, Joemon M. Jose, Nicolas Pugeault, Paul Henderson,
- Abstract要約: オーディオ・ビジュアル・感情認識(AVER)のための細部強化型イントラモーダル・インターモーダル・インタラクション・ネットワーク(DE-III)を提案する。
我々は,顔の状態変化をよりよく捉えたテクスチャで映像表現を豊かにするために,光学フロー情報を導入する。
融合モジュールは、光学フロー推定を対応するビデオフレームと統合し、顔のテクスチャ変化の表現を強化する。
- 参考スコア(独自算出の注目度): 8.261744063074612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Capturing complex temporal relationships between video and audio modalities is vital for Audio-Visual Emotion Recognition (AVER). However, existing methods lack attention to local details, such as facial state changes between video frames, which can reduce the discriminability of features and thus lower recognition accuracy. In this paper, we propose a Detail-Enhanced Intra- and Inter-modal Interaction network(DE-III) for AVER, incorporating several novel aspects. We introduce optical flow information to enrich video representations with texture details that better capture facial state changes. A fusion module integrates the optical flow estimation with the corresponding video frames to enhance the representation of facial texture variations. We also design attentive intra- and inter-modal feature enhancement modules to further improve the richness and discriminability of video and audio representations. A detailed quantitative evaluation shows that our proposed model outperforms all existing methods on three benchmark datasets for both concrete and continuous emotion recognition. To encourage further research and ensure replicability, we will release our full code upon acceptance.
- Abstract(参考訳): AVER(Audio-Visual Emotion Recognition)では,映像と音声のモーダルリティの複雑な時間的関係を捉えることが不可欠である。
しかし、既存の手法では、映像フレーム間の顔の状態変化のような局所的な細部への注意が欠如しており、特徴の識別性が低下し、認識精度が低下する可能性がある。
本稿では,AVERのためのDetail-Enhanced Inter-Modal Interaction Network (DE-III)を提案する。
我々は,顔の状態変化をよりよく捉えたテクスチャで映像表現を豊かにするために,光学フロー情報を導入する。
融合モジュールは、光学フロー推定を対応するビデオフレームと統合し、顔のテクスチャ変化の表現を強化する。
また,映像・音声表現の豊かさと識別性を向上させるため,モーダル内・モーダル間機能拡張モジュールを設計する。
より詳細な定量的評価により,提案手法は,具体的な感情認識と連続的な感情認識の両面において,3つのベンチマークデータセット上の既存手法よりも優れていることが示された。
さらなる研究を奨励し、複製性を確保するため、受け入れ次第、全コードをリリースします。
関連論文リスト
- Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense
Interactions through Masked Modeling [24.346868432774453]
人間は聴覚情報と視覚情報を統合でき、周囲の環境をより深く理解することができる。
認知心理学と神経科学の研究を通じて実証された、音声と視覚の早期融合は、マルチモーダル知覚モデルを開発するための有望な可能性を提供する。
初期融合によるオーディオ・ビジュアル・エンコーダの訓練にマスク付き再構成フレームワークを活用することで、早期融合アーキテクチャの訓練に対処する。
本研究では,局所的な音声と視覚的表現の相互作用を捉え,細粒度な相互作用を捕捉するモデルの能力を向上する,注意に基づく融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-02T03:38:49Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Towards Modality Transferable Visual Information Representation with
Optimal Model Compression [67.89885998586995]
本稿では,伝達可能なモダリティの原理を活かした視覚信号表現手法を提案する。
提案するフレームワークは最先端のビデオコーディング標準に実装されている。
論文 参考訳(メタデータ) (2020-08-13T01:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。