論文の概要: Solution for 8th Competition on Affective & Behavior Analysis in-the-wild
- arxiv url: http://arxiv.org/abs/2503.11115v1
- Date: Fri, 14 Mar 2025 06:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:23.367859
- Title: Solution for 8th Competition on Affective & Behavior Analysis in-the-wild
- Title(参考訳): 第8回Affective and Behavior Analysis in-the-wildコンペティション
- Authors: Jun Yu, Yunxiang Zhang, Xilong Lu, Yang Zheng, Yongqi Wang, Lingsi Zhu,
- Abstract要約: 本研究は,第8回感情行動分析コンペティションにおけるAU(Action Unit)検出問題に対する解決策を提案する。
本手法では,画像エンコーダとしてConvNeXtを用い,Whisperを用いてMelスペクトルの特徴を抽出する。
これにより、Aff-Wild2データセットでトレーニングされた後続の多層パーセプトロン(MLP)に対して、リッチな高次元特徴表現が提供される。
- 参考スコア(独自算出の注目度): 11.27990802129888
- License:
- Abstract: In this report, we present our solution for the Action Unit (AU) Detection Challenge, in 8th Competition on Affective Behavior Analysis in-the-wild. In order to achieve robust and accurate classification of facial action unit in the wild environment, we introduce an innovative method that leverages audio-visual multimodal data. Our method employs ConvNeXt as the image encoder and uses Whisper to extract Mel spectrogram features. For these features, we utilize a Transformer encoder-based feature fusion module to integrate the affective information embedded in audio and image features. This ensures the provision of rich high-dimensional feature representations for the subsequent multilayer perceptron (MLP) trained on the Aff-Wild2 dataset, enhancing the accuracy of AU detection.
- Abstract(参考訳): 本報告では,第8回感情行動分析コンペティションにおけるAU(Action Unit)検出問題に対する解決策について述べる。
野生環境下での顔動作単位の堅牢かつ正確な分類を実現するために,音声・視覚的マルチモーダルデータを活用する革新的な手法を提案する。
本手法では,画像エンコーダとしてConvNeXtを用い,Whisperを用いてMelスペクトルの特徴を抽出する。
これらの特徴に対して、トランスフォーマーエンコーダベースの機能融合モジュールを用いて、音声や画像に埋め込まれた感情情報を統合する。
これにより、Aff-Wild2データセットでトレーニングされた後続の多層パーセプトロン(MLP)に対してリッチな高次元特徴表現が提供され、AU検出の精度が向上する。
関連論文リスト
- FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [95.24751989263117]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである。
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文 参考訳(メタデータ) (2024-04-17T02:47:39Z) - AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts [8.809586885539002]
音声・視覚的マルチモーダルデータを利用した新しい手法を提案する。
本手法は,Mel Frequency Cepstral Coefficients (MFCC) とLog-Mel Spectrogram を,事前学習したVGGishネットワークと共に利用することにより,音声特徴抽出を強化する。
本手法は,データの時間的・文脈的ニュアンスを理解することにより,AU検出の精度を著しく向上させ,複雑なシナリオの理解における重要な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T15:37:19Z) - Unimodal Multi-Task Fusion for Emotional Mimicry Intensity Prediction [6.1058750788332325]
第6回ワークショップおよび感情行動分析コンペティションの一環として,情緒的不安度(EMI)を評価するための新しい方法論を紹介した。
我々の手法は、広範囲なポッドキャストデータセットで事前トレーニングされたWav2Vec 2.0アーキテクチャを活用している。
我々は,個々の特徴をグローバル平均ベクトルと組み合わせた融合手法を用いて特徴抽出プロセスを洗練する。
論文 参考訳(メタデータ) (2024-03-18T15:32:02Z) - Boosting Continuous Emotion Recognition with Self-Pretraining using Masked Autoencoders, Temporal Convolutional Networks, and Transformers [3.951847822557829]
本研究では,Valence-Arousal (VA) Estimation Challenge, Expression (Expr) Classification Challenge, Action Unit (AU) Detection Challengeに取り組む。
本研究は,継続的な感情認識を改善するための新しいアプローチを提唱する。
我々は、顔データセット上でMasked Autoencoders(MAE)を事前トレーニングし、その後、式(Expr)ラベルを付加したaff-wild2データセットを微調整することで、これを実現する。
論文 参考訳(メタデータ) (2024-03-18T03:28:01Z) - DAMSDet: Dynamic Adaptive Multispectral Detection Transformer with
Competitive Query Selection and Adaptive Feature Fusion [82.2425759608975]
赤外可視物体検出は、赤外画像と可視画像の相補的情報を融合することにより、フルデイ物体検出の堅牢化を目指している。
本稿では,この2つの課題に対処する動的適応型マルチスペクトル検出変換器(DAMSDet)を提案する。
4つの公開データセットの実験は、他の最先端の手法と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-03-01T07:03:27Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - An Attention-based Method for Action Unit Detection at the 3rd ABAW
Competition [6.229820412732652]
本稿では,2022年の第3回ABAW(Affective Behavior Analysis in-the-Wild)コンテストへの参加について述べる。
映像中の顔の動きを検知する手法を提案する。
ABAWチャレンジ検証セットのマクロF1スコアは0.48であり,ベースラインモデルでは0.39であった。
論文 参考訳(メタデータ) (2022-03-23T14:07:39Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。