Fugu-MT 論文翻訳(概要): End-to-End Facial Expression Detection in Long Videos

論文の概要: End-to-End Facial Expression Detection in Long Videos

arxiv url: http://arxiv.org/abs/2504.07660v1
Date: Thu, 10 Apr 2025 11:18:46 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-18 17:58:59.890823
Title: End-to-End Facial Expression Detection in Long Videos
Title（参考訳）: 長時間映像における顔表情の終端検出
Authors: Yini Fang, Alec Diallo, Yiqi Shi, Frederic Jumelle, Bertram Shi,
Abstract要約: 本研究では,画像のスポッティングと認識を協調的に最適化するFEDN(End-to-end Facial Expression Detection Network)を提案する。 1つのネットワーク内で2つのタスクを統一することにより、エラーの伝搬を大幅に削減し、全体的な性能を向上させる。
参考スコア（独自算出の注目度）: 0.2796197251957245
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Facial expression detection involves two interrelated tasks: spotting, which identifies the onset and offset of expressions, and recognition, which classifies them into emotional categories. Most existing methods treat these tasks separately using a two-step training pipelines. A spotting model first detects expression intervals. A recognition model then classifies the detected segments. However, this sequential approach leads to error propagation, inefficient feature learning, and suboptimal performance due to the lack of joint optimization of the two tasks. We propose FEDN, an end-to-end Facial Expression Detection Network that jointly optimizes spotting and recognition. Our model introduces a novel attention-based feature extraction module, incorporating segment attention and sliding window attention to improve facial feature learning. By unifying two tasks within a single network, we greatly reduce error propagation and enhance overall performance. Experiments on CASME}^2 and CASME^3 demonstrate state-of-the-art accuracy for both spotting and detection, underscoring the benefits of joint optimization for robust facial expression detection in long videos.
Abstract（参考訳）: 表情検出には、表情の開始とオフセットを識別するスポッティングと、それらを感情カテゴリーに分類する認識という2つの相互関連タスクが含まれる。既存のほとんどのメソッドは、2ステップのトレーニングパイプラインを使用してこれらのタスクを別々に扱う。スポッティングモデルが最初に表現間隔を検出する。認識モデルは検出されたセグメントを分類する。しかし、このシーケンシャルなアプローチは、2つのタスクの共同最適化が欠如しているため、エラーの伝播、非効率な特徴学習、最適でない性能をもたらす。 FEDNは、スポッティングと認識を協調的に最適化する、エンドツーエンドの表情検出ネットワークである。本モデルでは,顔の特徴学習を改善するために,セグメントアテンションとスライディングウィンドウアテンションを取り入れた新しいアテンションベース特徴抽出モジュールを提案する。 1つのネットワーク内で2つのタスクを統一することにより、エラーの伝搬を大幅に削減し、全体的な性能を向上させる。 CASME}^2とCASME^3の実験は、スポッティングと検出の両方において最先端の精度を示し、長いビデオにおける堅牢な表情検出のための共同最適化の利点を裏付けている。

関連論文リスト

Rethinking Contrastive Learning in Graph Anomaly Detection: A Clean-View Perspective [54.605073936695575]
グラフ異常検出は、Webセキュリティやファイナンシャル不正検出などの分野で広く応用されているグラフベースのデータにおいて、異常なパターンを特定することを目的としている。既存の手法は対照的な学習に依存しており、ノードとその局所部分グラフの間のより低い類似性は異常を示すと仮定する。干渉エッジの存在は、対照的な学習過程を損なう破壊的なノイズをもたらすため、この仮定を無効にする。コントラスト学習プロセスにおいて重要な干渉源を特定するために,複数スケールの異常認識モジュールを含むクリーンビュー拡張グラフ異常検出フレームワーク(CVGAD)を提案する。
論文参考訳（メタデータ） (2025-05-23T15:05:56Z)
Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文参考訳（メタデータ） (2024-10-03T15:45:15Z)
UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文参考訳（メタデータ） (2024-07-26T20:51:54Z)
Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文参考訳（メタデータ） (2022-03-03T11:53:54Z)
Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文参考訳（メタデータ） (2021-08-15T02:21:01Z)
Distribution Alignment: A Unified Framework for Long-tail Visual Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文参考訳（メタデータ） (2021-03-30T14:09:53Z)
Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。フェースフォージェリ検出に高周波雑音を用いることを提案する。 1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。 2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文参考訳（メタデータ） (2021-03-23T08:19:21Z)
AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文参考訳（メタデータ） (2020-11-30T10:21:32Z)
Micro-Facial Expression Recognition Based on Deep-Rooted Learning Algorithm [0.0]
本稿では,MFEDRL(Micro-Facial Expression Based Deep-Rooted Learning)分類器を提案する。アルゴリズムの性能は認識率と偽測度を用いて評価する。
論文参考訳（メタデータ） (2020-09-12T12:23:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。