論文の概要: SpotFormer: Multi-Scale Spatio-Temporal Transformer for Facial Expression Spotting
- arxiv url: http://arxiv.org/abs/2407.20799v1
- Date: Tue, 30 Jul 2024 13:02:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:10:01.079512
- Title: SpotFormer: Multi-Scale Spatio-Temporal Transformer for Facial Expression Spotting
- Title(参考訳): SpotFormer: 表情スポッティングのためのマルチスケール時空間変換器
- Authors: Yicheng Deng, Hideaki Hayashi, Hajime Nagahara,
- Abstract要約: 本稿では,表情スポッティングのための効率的なフレームワークを提案する。
まず,スライディングウィンドウを用いたマルチリゾリューション・オプティカルフロー(SW-MRO)機能を提案する。
第2に,SW-MRO特徴の顔時間関係を同時に符号化し,フレームレベルの精度推定を行うマルチスケール時間変換器であるSpotFormerを提案する。
第3に,異なる種類の表現の識別性を高めるために,教師付きコントラスト学習をSpotFormerに導入する。
- 参考スコア(独自算出の注目度): 11.978551396144532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial expression spotting, identifying periods where facial expressions occur in a video, is a significant yet challenging task in facial expression analysis. The issues of irrelevant facial movements and the challenge of detecting subtle motions in micro-expressions remain unresolved, hindering accurate expression spotting. In this paper, we propose an efficient framework for facial expression spotting. First, we propose a Sliding Window-based Multi-Resolution Optical flow (SW-MRO) feature, which calculates multi-resolution optical flow of the input image sequence within compact sliding windows. The window length is tailored to perceive complete micro-expressions and distinguish between general macro- and micro-expressions. SW-MRO can effectively reveal subtle motions while avoiding severe head movement problems. Second, we propose SpotFormer, a multi-scale spatio-temporal Transformer that simultaneously encodes spatio-temporal relationships of the SW-MRO features for accurate frame-level probability estimation. In SpotFormer, our proposed Facial Local Graph Pooling (FLGP) and convolutional layers are applied for multi-scale spatio-temporal feature extraction. We show the validity of the architecture of SpotFormer by comparing it with several model variants. Third, we introduce supervised contrastive learning into SpotFormer to enhance the discriminability between different types of expressions. Extensive experiments on SAMM-LV and CAS(ME)^2 show that our method outperforms state-of-the-art models, particularly in micro-expression spotting.
- Abstract(参考訳): 顔表情スポッティング(英: Facial expression spotting)は、顔表情分析において重要な課題である。
無関係な顔の動きと微小表現における微妙な動きを検出するという課題は未解決のままであり、正確な表情スポッティングを妨げている。
本稿では,表情スポッティングのための効率的なフレームワークを提案する。
まず,スライディングウインドウを用いたマルチリゾリューションオプティカルフロー(SW-MRO)機能を提案し,コンパクトなスライディングウインドウ内における入力画像列のマルチレゾリューションオプティカルフローを算出する。
ウィンドウ長は、完全なマイクロ表現を知覚し、一般的なマクロ表現とマイクロ表現を区別するために調整される。
SW-MROは、重度の頭の動きの問題を避けながら、効果的に微妙な動きを明らかにすることができる。
第2に,SW-MRO特徴量の時空間的関係を同時に符号化して,フレームレベルの推定を行うマルチスケール時空間変換器であるSpotFormerを提案する。
SpotFormerでは,提案するFalcial Local Graph Pooling (FLGP) と畳み込み層をマルチスケールの時空間特徴抽出に適用した。
本研究では,SpotFormer のアーキテクチャの有効性を,いくつかのモデル変種との比較により示す。
第3に,異なる種類の表現の識別性を高めるために,教師付きコントラスト学習をSpotFormerに導入する。
SAMM-LVおよびCAS(ME)^2の大規模実験により,本手法は特にマイクロ圧縮スポッティングにおいて,最先端モデルよりも優れた性能を示した。
関連論文リスト
- MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Multi-Scale Spatio-Temporal Graph Convolutional Network for Facial Expression Spotting [11.978551396144532]
表情スポッティングのためのマルチスケール時空間グラフコナーネットワーク(SpoT-CN)を提案する。
窓長がネットワークの時間的受容野に適応するコンパクトなスライディングウインドウにおいて,顔面筋の短期的および長期的運動を追跡する。
このネットワークは,提案した顔局所進化グラフプーリング(FLGP)を用いて,複数スケールの顔グラフ構造から局所的特徴と大域的特徴を学習する。
論文 参考訳(メタデータ) (2024-03-24T03:10:39Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。
本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文 参考訳(メタデータ) (2023-05-24T16:26:05Z) - Multi-scale multi-modal micro-expression recognition algorithm based on
transformer [17.980579727286518]
マイクロ・エクスプレッション(micro-expression)は、人々が隠そうとする真の感情を明らかにする、自然に無意識の顔面筋運動である。
マイクロ表現の局所的多粒度特徴を学習するためのトランスフォーマーネットワークに基づくマルチモーダルマルチスケールアルゴリズムを提案する。
その結果、単一測定SMICデータベースにおける提案アルゴリズムの精度は78.73%、組合せデータベースのCASMEII上のF1値は最大0.9071であることがわかった。
論文 参考訳(メタデータ) (2023-01-08T03:45:23Z) - Lagrangian Motion Magnification with Double Sparse Optical Flow
Decomposition [2.1028463367241033]
顔面微小運動の局所的なラグランジアン運動倍率に対する新しいアプローチを提案する。
まず、顔を深層学習するために、リカレントな全ペアフィールド変換(RAFT)を微調整する。
第二に、顔の微小運動は空間と時間の両方で局所的であるので、空間と時間の両方でスパース成分を分解し、二重スパース分解をもたらすOF場を近似することを提案する。
論文 参考訳(メタデータ) (2022-04-15T20:24:11Z) - End-to-end Multi-modal Video Temporal Grounding [105.36814858748285]
ビデオから補完情報を抽出するマルチモーダルフレームワークを提案する。
我々は、外見にRGB画像、運動に光学フロー、画像構造に深度マップを採用する。
本稿では、Charades-STAおよびActivityNet Captionsデータセットの実験を行い、提案手法が最先端のアプローチに対して好適に動作することを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:10Z) - Shallow Optical Flow Three-Stream CNN for Macro- and Micro-Expression
Spotting from Long Videos [15.322908569777551]
本稿では,表現区間にあるフレームの確率を推定するモデルを提案する。
本稿では,最新のMEGC 2020ベンチマークにおいて提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2021-06-11T16:19:48Z) - AOT: Appearance Optimal Transport Based Identity Swapping for Forgery
Detection [76.7063732501752]
顔偽造検出のための外観の相違が大きい新しい識別スワップアルゴリズムを提案する。
外観のギャップは主に、照明と肌の色における大きな相違から生じる。
実画像パッチと偽画像パッチの混在とを識別するために識別器を導入する。
論文 参考訳(メタデータ) (2020-11-05T06:17:04Z) - Micro-Facial Expression Recognition Based on Deep-Rooted Learning
Algorithm [0.0]
本稿では,MFEDRL(Micro-Facial Expression Based Deep-Rooted Learning)分類器を提案する。
アルゴリズムの性能は認識率と偽測度を用いて評価する。
論文 参考訳(メタデータ) (2020-09-12T12:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。