論文の概要: Solution for 8th Competition on Affective & Behavior Analysis in-the-wild
- arxiv url: http://arxiv.org/abs/2503.11115v1
- Date: Fri, 14 Mar 2025 06:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 22:04:29.198674
- Title: Solution for 8th Competition on Affective & Behavior Analysis in-the-wild
- Title(参考訳): 第8回Affective and Behavior Analysis in-the-wildコンペティション
- Authors: Jun Yu, Yunxiang Zhang, Xilong Lu, Yang Zheng, Yongqi Wang, Lingsi Zhu,
- Abstract要約: 本研究は,第8回感情行動分析コンペティションにおけるAU(Action Unit)検出問題に対する解決策を提案する。
本手法では,画像エンコーダとしてConvNeXtを用い,Whisperを用いてMelスペクトルの特徴を抽出する。
これにより、Aff-Wild2データセットでトレーニングされた後続の多層パーセプトロン(MLP)に対して、リッチな高次元特徴表現が提供される。
- 参考スコア(独自算出の注目度): 11.27990802129888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we present our solution for the Action Unit (AU) Detection Challenge, in 8th Competition on Affective Behavior Analysis in-the-wild. In order to achieve robust and accurate classification of facial action unit in the wild environment, we introduce an innovative method that leverages audio-visual multimodal data. Our method employs ConvNeXt as the image encoder and uses Whisper to extract Mel spectrogram features. For these features, we utilize a Transformer encoder-based feature fusion module to integrate the affective information embedded in audio and image features. This ensures the provision of rich high-dimensional feature representations for the subsequent multilayer perceptron (MLP) trained on the Aff-Wild2 dataset, enhancing the accuracy of AU detection.
- Abstract(参考訳): 本報告では,第8回感情行動分析コンペティションにおけるAU(Action Unit)検出問題に対する解決策について述べる。
野生環境下での顔動作単位の堅牢かつ正確な分類を実現するために,音声・視覚的マルチモーダルデータを活用する革新的な手法を提案する。
本手法では,画像エンコーダとしてConvNeXtを用い,Whisperを用いてMelスペクトルの特徴を抽出する。
これらの特徴に対して、トランスフォーマーエンコーダベースの機能融合モジュールを用いて、音声や画像に埋め込まれた感情情報を統合する。
これにより、Aff-Wild2データセットでトレーニングされた後続の多層パーセプトロン(MLP)に対してリッチな高次元特徴表現が提供され、AU検出の精度が向上する。
関連論文リスト
- AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Interactive Multimodal Fusion with Temporal Modeling [11.506800500772734]
本手法では,マルチモーダル・フレームワークを通じて視覚情報と音声情報を統合する。
ビジュアルブランチは、トレーニング済みのResNetモデルを使用して、顔画像から特徴を抽出する。
オーディオブランチは、トレーニング済みのVGGモデルを使用して、音声信号からVGGishとLogMelの特徴を抽出する。
提案手法は,Aff-Wild2データセット上での競合性能を実現し,VA推定に有効なマルチモーダル融合を実証する。
論文 参考訳(メタデータ) (2025-03-13T16:31:56Z) - HSEmotion Team at ABAW-8 Competition: Audiovisual Ambivalence/Hesitancy, Emotional Mimicry Intensity and Facial Expression Recognition [16.860963320038902]
本稿では,第8回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションの結果について述べる。
事前学習したモデルから抽出した顔の感情記述子と音響的特徴と音声から認識されたテキストの埋め込みを組み合わせる。
フレームレベルの特徴を単純に集約し、多層パーセプトロンを訓練することにより、感情的模倣強度の映像レベル予測を実現する。
論文 参考訳(メタデータ) (2025-03-13T14:21:46Z) - FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - MaeFuse: Transferring Omni Features with Pretrained Masked Autoencoders for Infrared and Visible Image Fusion via Guided Training [95.24751989263117]
MaeFuseは、赤外線および可視画像融合(IVIF)用に設計された新しいオートエンコーダモデルである。
提案モデルでは,MAE(Masked Autoencoders)の事前訓練エンコーダを用いて,低レベル再構成と高レベル視覚タスクのためのオムニ特徴抽出機能を備えている。
MaeFuseは、融合技術という領域で新しい視点を導入するだけでなく、様々な公開データセットで顕著なパフォーマンスで際立っている。
論文 参考訳(メタデータ) (2024-04-17T02:47:39Z) - AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts [8.809586885539002]
音声・視覚的マルチモーダルデータを利用した新しい手法を提案する。
本手法は,Mel Frequency Cepstral Coefficients (MFCC) とLog-Mel Spectrogram を,事前学習したVGGishネットワークと共に利用することにより,音声特徴抽出を強化する。
本手法は,データの時間的・文脈的ニュアンスを理解することにより,AU検出の精度を著しく向上させ,複雑なシナリオの理解における重要な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T15:37:19Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Multi Modal Facial Expression Recognition with Transformer-Based Fusion
Networks and Dynamic Sampling [1.983814021949464]
モーダル・フュージョン・モジュール (MFM) を導入し,Swin Transformer から画像特徴と音声特徴を抽出する。
本モデルはCVPR 2023のABAW(Affective Behavior in-the-wild)課題において評価されている。
論文 参考訳(メタデータ) (2023-03-15T07:40:28Z) - An Attention-based Method for Action Unit Detection at the 3rd ABAW
Competition [6.229820412732652]
本稿では,2022年の第3回ABAW(Affective Behavior Analysis in-the-Wild)コンテストへの参加について述べる。
映像中の顔の動きを検知する手法を提案する。
ABAWチャレンジ検証セットのマクロF1スコアは0.48であり,ベースラインモデルでは0.39であった。
論文 参考訳(メタデータ) (2022-03-23T14:07:39Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。