論文の概要: End-to-End Facial Expression Detection in Long Videos
- arxiv url: http://arxiv.org/abs/2504.07660v1
- Date: Thu, 10 Apr 2025 11:18:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:47.841103
- Title: End-to-End Facial Expression Detection in Long Videos
- Title(参考訳): 長時間映像における顔表情の終端検出
- Authors: Yini Fang, Alec Diallo, Yiqi Shi, Frederic Jumelle, Bertram Shi,
- Abstract要約: 本研究では,画像のスポッティングと認識を協調的に最適化するFEDN(End-to-end Facial Expression Detection Network)を提案する。
1つのネットワーク内で2つのタスクを統一することにより、エラーの伝搬を大幅に削減し、全体的な性能を向上させる。
- 参考スコア(独自算出の注目度): 0.2796197251957245
- License:
- Abstract: Facial expression detection involves two interrelated tasks: spotting, which identifies the onset and offset of expressions, and recognition, which classifies them into emotional categories. Most existing methods treat these tasks separately using a two-step training pipelines. A spotting model first detects expression intervals. A recognition model then classifies the detected segments. However, this sequential approach leads to error propagation, inefficient feature learning, and suboptimal performance due to the lack of joint optimization of the two tasks. We propose FEDN, an end-to-end Facial Expression Detection Network that jointly optimizes spotting and recognition. Our model introduces a novel attention-based feature extraction module, incorporating segment attention and sliding window attention to improve facial feature learning. By unifying two tasks within a single network, we greatly reduce error propagation and enhance overall performance. Experiments on CASME}^2 and CASME^3 demonstrate state-of-the-art accuracy for both spotting and detection, underscoring the benefits of joint optimization for robust facial expression detection in long videos.
- Abstract(参考訳): 表情検出には、表情の開始とオフセットを識別するスポッティングと、それらを感情カテゴリーに分類する認識という2つの相互関連タスクが含まれる。
既存のほとんどのメソッドは、2ステップのトレーニングパイプラインを使用してこれらのタスクを別々に扱う。
スポッティングモデルが最初に表現間隔を検出する。
認識モデルは検出されたセグメントを分類する。
しかし、このシーケンシャルなアプローチは、2つのタスクの共同最適化が欠如しているため、エラーの伝播、非効率な特徴学習、最適でない性能をもたらす。
FEDNは、スポッティングと認識を協調的に最適化する、エンドツーエンドの表情検出ネットワークである。
本モデルでは,顔の特徴学習を改善するために,セグメントアテンションとスライディングウィンドウアテンションを取り入れた新しいアテンションベース特徴抽出モジュールを提案する。
1つのネットワーク内で2つのタスクを統一することにより、エラーの伝搬を大幅に削減し、全体的な性能を向上させる。
CASME}^2とCASME^3の実験は、スポッティングと検出の両方において最先端の精度を示し、長いビデオにおける堅牢な表情検出のための共同最適化の利点を裏付けている。
関連論文リスト
- UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - SCL-VI: Self-supervised Context Learning for Visual Inspection of
Industrial Defects [4.487908181569429]
本稿では,有名なジグソーパズルに取り組むことで,最適なエンコーダを導出する自己教師型学習アルゴリズムを提案する。
提案手法では, 対象画像を9つのパッチに分割し, エンコーダに2つのパッチ間の相対的な位置関係を予測して, リッチなセマンティクスを抽出する。
論文 参考訳(メタデータ) (2023-11-11T08:01:40Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z) - Micro-Facial Expression Recognition Based on Deep-Rooted Learning
Algorithm [0.0]
本稿では,MFEDRL(Micro-Facial Expression Based Deep-Rooted Learning)分類器を提案する。
アルゴリズムの性能は認識率と偽測度を用いて評価する。
論文 参考訳(メタデータ) (2020-09-12T12:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。