Fugu-MT 論文翻訳(概要): Multi-modal Facial Action Unit Detection with Large Pre-trained Models for the 5th Competition on Affective Behavior Analysis in-the-wild

論文の概要: Multi-modal Facial Action Unit Detection with Large Pre-trained Models for the 5th Competition on Affective Behavior Analysis in-the-wild

arxiv url: http://arxiv.org/abs/2303.10590v1
Date: Sun, 19 Mar 2023 07:18:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-21 18:21:29.580237
Title: Multi-modal Facial Action Unit Detection with Large Pre-trained Models for the 5th Competition on Affective Behavior Analysis in-the-wild
Title（参考訳）: 第5回愛着行動分析コンペティションにおける大規模事前学習モデルを用いたマルチモーダル顔行動単位検出
Authors: Yufeng Yin, Minh Tran, Di Chang, Xinrui Wang, Mohammad Soleymani
Abstract要約: 本稿では,AU検出のためのABAW(Affective Behavior Analysis in-wild)2023コンペティションについて述べる。本稿では,大規模な事前学習モデルから抽出した視覚的,音響的,語彙的特徴を用いた顔動作単位検出のための多モード手法を提案する。第5回ABAWチャレンジの公式検証セットでは,F1スコアが52.3%に達している。
参考スコア（独自算出の注目度）: 7.905280782507726
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Facial action unit detection has emerged as an important task within facial expression analysis, aimed at detecting specific pre-defined, objective facial expressions, such as lip tightening and cheek raising. This paper presents our submission to the Affective Behavior Analysis in-the-wild (ABAW) 2023 Competition for AU detection. We propose a multi-modal method for facial action unit detection with visual, acoustic, and lexical features extracted from the large pre-trained models. To provide high-quality details for visual feature extraction, we apply super-resolution and face alignment to the training data and show potential performance gain. Our approach achieves the F1 score of 52.3\% on the official validation set of the 5th ABAW Challenge.
Abstract（参考訳）: 顔面行動単位検出は表情分析において重要な課題として現れており、口唇の締め付けや頬の上げなど、特定の定義済みの客観的な表情を検出することを目的としている。本稿では,ABAW (Affective Behavior Analysis in-wild) 2023 Competition for AU Detectionについて述べる。本研究では,大規模事前学習モデルから抽出した視覚的,音響的,語彙的特徴を用いた顔行動単位検出のためのマルチモーダル手法を提案する。視覚的特徴抽出のための高品質な詳細を提供するために,超解像度と顔アライメントをトレーニングデータに適用し,潜在的な性能向上を示す。本手法は,第5回ABAWチャレンジの公式検証セットにおいて52.3\%のF1スコアを達成する。

関連論文リスト

ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors [58.45131932883374]
ビデオ中のディープフェイクを検出するための完全自己教師型アプローチを提案する。本モデルでは,拡散再構成誤差を用いて,疑わしい映像とパーソナライズされた被写体との同一性距離を算出する。本手法は, ボケや圧縮などの汚損に対して極めて堅牢であり, 現実の顔偽造検出への適用性を強調している。
論文参考訳（メタデータ） (2026-01-05T18:59:54Z)
ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [48.994853869901974]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文参考訳（メタデータ） (2025-05-19T17:59:27Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文参考訳（メタデータ） (2024-10-04T14:52:09Z)
UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文参考訳（メタデータ） (2024-07-26T20:51:54Z)
Task-adaptive Q-Face [75.15668556061772]
本稿では,タスク適応型マルチタスク顔分析手法Q-Faceを提案する。 Q-Faceは統合されたモデルで複数の顔分析タスクを同時に実行する。本手法は,顔表情認識,行動単位検出,顔属性分析,年齢推定,顔ポーズ推定における最先端性能を実現する。
論文参考訳（メタデータ） (2024-05-15T03:13:11Z)
Emotic Masked Autoencoder with Attention Fusion for Facial Expression Recognition [1.4374467687356276]
本稿では,MAE-Face self-supervised learning (SSL) 法と多視点融合注意機構を組み合わせた表現分類手法を提案する。我々は、重要な顔の特徴を強調表示して、そのような機能がモデルのガイドとして機能するかどうかを判断することを目的とした、実装が容易でトレーニングなしのフレームワークを提案する。 Aff-wild2データセットにおけるモデル性能の改善により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-03-19T16:21:47Z)
HSEmotion Team at the 6th ABAW Competition: Facial Expressions, Valence-Arousal and Emotion Intensity Prediction [16.860963320038902]
我々は、下流タスクのためにニューラルネットワークを微調整することなく、信頼できる感情的特徴を抽出する訓練済みのディープモデルを使用することの可能性を検討する。我々は、マルチタスクシナリオで訓練されたMobileViT、MobileFaceNet、EfficientNet、DFNDAMアーキテクチャに基づいて、表情を認識するための軽量モデルをいくつか導入する。提案手法では,既存の非アンサンブル手法と比較して,検証セットの品質指標を大幅に改善する。
論文参考訳（メタデータ） (2024-03-18T09:08:41Z)
Multi-modal Facial Affective Analysis based on Masked Autoencoder [7.17338843593134]
CVPR 2023: ABAW5 competition: Affective Behavior Analysis in-the-wild について紹介する。まず,大規模顔画像データセット上で事前学習したMasked Autoencoder(MAE)モデルの視覚情報を利用する。 ABAW5では,平均F1スコアが55.49%,EXPRトラックが41.21%であった。
論文参考訳（メタデータ） (2023-03-20T03:58:03Z)
CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。 CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文参考訳（メタデータ） (2022-08-10T15:46:05Z)
Frame-level Prediction of Facial Expressions, Valence, Arousal and Action Units for Mobile Devices [7.056222499095849]
本稿では,AffectNetで事前学習した1つのEfficientNetモデルを用いて,顔の特徴を抽出し,フレームレベルの感情認識アルゴリズムを提案する。当社のアプローチは,モバイルデバイス上でのビデオ解析にも適用できる。
論文参考訳（メタデータ） (2022-03-25T03:53:27Z)
Multi-modal Multi-label Facial Action Unit Detection with Transformer [7.30287060715476]
本稿では,第3回ABAW(Affective Behavior Analysis)2022コンペティションについて述べる。映像中の顔行動単位(FAU)を検出するためのトランスフォーマーモデルを提案した。
論文参考訳（メタデータ） (2022-03-24T18:59:31Z)
Robust and Precise Facial Landmark Detection by Self-Calibrated Pose Attention Network [73.56802915291917]
より堅牢で正確な顔のランドマーク検出を実現するための半教師付きフレームワークを提案する。より効果的な顔形状制約をモデル化するために,境界対応ランドマーク強度(BALI)フィールドを提案する。自己キャリブレーション・ポース・アテンション(SCPA)モデルは、中間的監督を強制する自己学習型目標関数を提供するように設計されている。
論文参考訳（メタデータ） (2021-12-23T02:51:08Z)
Pre-training strategies and datasets for facial representation learning [58.8289362536262]
いくつかの顔分析タスクやデータセットに適用可能な普遍的な顔表現の探索方法を示す。顔に適応する2つの大規模表現学習を体系的に検討する。私たちの主な2つの発見は以下の通りです: 完全にインザワイルドな未処理データに対する教師なし事前トレーニングは一貫性を提供し、場合によっては大幅な精度向上をもたらします。
論文参考訳（メタデータ） (2021-03-30T17:57:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。