論文の概要: Robust Light-Weight Facial Affective Behavior Recognition with CLIP
- arxiv url: http://arxiv.org/abs/2403.09915v1
- Date: Thu, 14 Mar 2024 23:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 20:56:05.882681
- Title: Robust Light-Weight Facial Affective Behavior Recognition with CLIP
- Title(参考訳): CLIPを用いたロバスト軽量顔行動認識
- Authors: Li Lin, Sarah Papabathini, Xin Wang, Shu Hu,
- Abstract要約: 人間の感情行動分析は、人間の感情に対する理解を深めるために、人間の表情や行動を調べることを目的としている。
表現分類やAU検出における既存のアプローチは、しばしば複雑なモデルとかなりの計算資源を必要とする。
本稿では,表現分類とAU検出の両方を効率的に扱うための,最初の軽量フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.368133562194267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human affective behavior analysis aims to delve into human expressions and behaviors to deepen our understanding of human emotions. Basic expression categories (EXPR) and Action Units (AUs) are two essential components in this analysis, which categorize emotions and break down facial movements into elemental units, respectively. Despite advancements, existing approaches in expression classification and AU detection often necessitate complex models and substantial computational resources, limiting their applicability in everyday settings. In this work, we introduce the first lightweight framework adept at efficiently tackling both expression classification and AU detection. This framework employs a frozen CLIP image encoder alongside a trainable multilayer perceptron (MLP), enhanced with Conditional Value at Risk (CVaR) for robustness and a loss landscape flattening strategy for improved generalization. Experimental results on the Aff-wild2 dataset demonstrate superior performance in comparison to the baseline while maintaining minimal computational demands, offering a practical solution for affective behavior analysis. The code is available at https://github.com/Purdue-M2/Affective_Behavior_Analysis_M2_PURDUE
- Abstract(参考訳): 人間の感情行動分析は、人間の感情に対する理解を深めるために、人間の表情や行動を調べることを目的としている。
基本表現カテゴリー(EXPR)と行動単位(AU)は、感情を分類し、顔の動きを要素単位に分解する2つの重要な要素である。
進歩にもかかわらず、式分類とAU検出における既存のアプローチは複雑なモデルとかなりの計算資源を必要とし、日常的な設定で適用性を制限する。
本研究では,表現分類とAU検出の両方を効率的に処理できる,最初の軽量フレームワークを提案する。
このフレームワークは、トレーニング可能な多層パーセプトロン(MLP)とともに凍結したCLIPイメージエンコーダを使用し、ロバストネスにCVaR(Conditional Value at Risk)を付加し、一般化を改善するためのロスランドスケープフラット化戦略を採用している。
Aff-wild2データセットの実験結果は、最小限の計算要求を維持しながらベースラインと比較して優れた性能を示し、感情行動分析のための実用的なソリューションを提供する。
コードはhttps://github.com/Purdue-M2/Affective_Behavior_Analysis_M2_PURDUEで公開されている。
関連論文リスト
- Efficient Human-Object-Interaction (EHOI) Detection via Interaction Label Coding and Conditional Decision [33.59153869330463]
本研究では, 検出性能, 推論複雑性, 数学的透明性のバランスを良くするために, 効率の良いHOI検出器を提案する。
我々の貢献は、稀な相互作用のケースをエンコードするためのエラー訂正符号(ECC)の適用を含む。
実験により,ECC符号化対話ラベルの利点と検出性能とEHOI法の複雑さのバランスが良好であることが示された。
論文 参考訳(メタデータ) (2024-08-13T16:34:06Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Facial Affective Behavior Analysis with Instruction Tuning [58.332959295770614]
顔の感情行動分析(FABA)は、画像から人間の精神状態を理解するために重要である。
従来のアプローチでは、主に個別の感情カテゴリーを識別するためのモデルをデプロイし、複雑な顔の振る舞いに対する細かい粒度と推論能力が欠如している。
本稿では,2つのFABAタスクに対する指示追従データセット,感情と行動の単位認識,および認識能力と生成能力の両方を考慮したベンチマークFABA-Benchを紹介する。
また,顔構造知識と低ランク適応モジュールを事前学習MLLMに導入した。
論文 参考訳(メタデータ) (2024-04-07T19:23:28Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Weakly-supervised HOI Detection via Prior-guided Bi-level Representation
Learning [66.00600682711995]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。
HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。
これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。
画像レベルとHOIインスタンスレベルの両方で事前の知識を組み込むことができるCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
論文 参考訳(メタデータ) (2023-03-02T14:41:31Z) - REDAffectiveLM: Leveraging Affect Enriched Embedding and
Transformer-based Neural Language Model for Readers' Emotion Detection [3.6678641723285446]
本稿では,REDAffectiveLMと呼ばれる深層学習モデルを用いて,短文文書からの読み手感情検出のための新しい手法を提案する。
コンテクストに特化してリッチ表現に影響を与え, リッチBi-LSTM+Attentionに影響を及ぼすタンデムにおいて, トランスフォーマーに基づく事前学習言語モデルを用いることで, リッチ表現に影響を及ぼす。
論文 参考訳(メタデータ) (2023-01-21T19:28:25Z) - Frame-level Prediction of Facial Expressions, Valence, Arousal and
Action Units for Mobile Devices [7.056222499095849]
本稿では,AffectNetで事前学習した1つのEfficientNetモデルを用いて,顔の特徴を抽出し,フレームレベルの感情認識アルゴリズムを提案する。
当社のアプローチは,モバイルデバイス上でのビデオ解析にも適用できる。
論文 参考訳(メタデータ) (2022-03-25T03:53:27Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - Modeling Dynamics of Facial Behavior for Mental Health Assessment [4.130361751085622]
自然言語処理における単語表現に使用されるアルゴリズムを用いて,表情の動的表現の可能性を検討する。
顔クラスタの埋め込みを学習するために,Global Vector representation (GloVe)アルゴリズムを適用する前に,5.3Mフレームの時間的表情の大規模なデータセット上でクラスタリングを行う。
統合失調症の症状重症度推定と抑うつ回帰という2つの下流課題における学習表現の有用性を評価した。
論文 参考訳(メタデータ) (2021-08-23T05:08:45Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。