論文の概要: Soften the Mask: Adaptive Temporal Soft Mask for Efficient Dynamic Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2502.21004v1
- Date: Fri, 28 Feb 2025 12:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:41:48.901030
- Title: Soften the Mask: Adaptive Temporal Soft Mask for Efficient Dynamic Facial Expression Recognition
- Title(参考訳): マスクの軟化:動的表情認識のための適応型時間的ソフトマスク
- Authors: Mengzhu Li, Quanxing Zha, Hongjun Wu,
- Abstract要約: 動的表情認識(DFER)は,非言語コミュニケーションによる心理的意図の理解を促進する。
既存の手法では、バックグラウンドノイズや冗長なセマンティクスといった無関係な情報を管理するのに苦労し、効率と有効性の両方に影響を及ぼす。
そこで本稿では,DFERのための新しい教師付き仮面自動エンコーダネットワーク,すなわちAdaToskを提案する。
- 参考スコア(独自算出の注目度): 4.151073288078749
- License:
- Abstract: Dynamic Facial Expression Recognition (DFER) facilitates the understanding of psychological intentions through non-verbal communication. Existing methods struggle to manage irrelevant information, such as background noise and redundant semantics, which impacts both efficiency and effectiveness. In this work, we propose a novel supervised temporal soft masked autoencoder network for DFER, namely AdaTosk, which integrates a parallel supervised classification branch with the self-supervised reconstruction branch. The self-supervised reconstruction branch applies random binary hard mask to generate diverse training samples, encouraging meaningful feature representations in visible tokens. Meanwhile the classification branch employs an adaptive temporal soft mask to flexibly mask visible tokens based on their temporal significance. Its two key components, respectively of, class-agnostic and class-semantic soft masks, serve to enhance critical expression moments and reduce semantic redundancy over time. Extensive experiments conducted on widely-used benchmarks demonstrate that our AdaTosk remarkably reduces computational costs compared with current state-of-the-art methods while still maintaining competitive performance.
- Abstract(参考訳): 動的表情認識(DFER)は,非言語コミュニケーションによる心理的意図の理解を促進する。
既存の手法では、バックグラウンドノイズや冗長なセマンティクスといった無関係な情報を管理するのに苦労し、効率と有効性の両方に影響を及ぼす。
そこで本研究では,DFERのための新しい教師付き仮面自動エンコーダネットワーク,すなわちAdaToskを提案する。
自己管理された再構築ブランチはランダムなバイナリハードマスクを適用して、さまざまなトレーニングサンプルを生成し、目に見えるトークンで有意義な特徴表現を奨励する。
一方、分類部は適応的な時間的ソフトマスクを用いて、その時間的重要性に基づいて可視トークンを柔軟にマスキングする。
その2つの重要な構成要素は、それぞれクラス非依存とクラスセマンティックのソフトマスクであり、重要な表現モーメントを高め、時間とともに意味的な冗長性を減少させるのに役立つ。
我々のAdaToskは、競争性能を維持しながら、現在の最先端の手法と比較して計算コストを著しく削減することを示した。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Masked Face Recognition with Generative-to-Discriminative Representations [29.035270415311427]
本研究では,マスク付き顔認識を容易にするために,生成と識別の表現を学習するための統合されたディープネットワークを提案する。
まず,顔の塗り絵に予め訓練された生成エンコーダを利用して,顔のマスクをカテゴリ認識記述子に表現する。
我々は,多層畳み込みネットワークを識別的再構成器として組み込んで,カテゴリ対応記述子をアイデンティティ対応ベクトルに変換することを学習する。
論文 参考訳(メタデータ) (2024-05-27T02:20:55Z) - Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification [13.995453649985732]
顔の表情認識とマスキングのための統合型マルチブランチ・ビジョン・トランスフォーマを提案する。
本手法では,両タスクの共有機能を二重ブランチアーキテクチャを用いて抽出する。
提案するフレームワークは,両タスクで別々のネットワークを使用する場合と比較して,全体的な複雑性を低減する。
論文 参考訳(メタデータ) (2024-04-22T22:02:19Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Non-Iterative Scribble-Supervised Learning with Pacing Pseudo-Masks for
Medical Image Segmentation [13.940364677162968]
Scribble-supervised Medical Image segmentationはスパースマスクの制限に対処する。
そこで我々は,PacingPseudoという,異質な擬似マスクのストリームが整合性学習を通じてネットワークを教える非定性的手法を提案する。
提案したPacingPseudoの有効性は、3つの公開医療画像データセットで検証されている。
論文 参考訳(メタデータ) (2022-10-20T01:57:44Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Self-Supervised Visual Representations Learning by Contrastive Mask
Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。
MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。
我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文 参考訳(メタデータ) (2021-08-18T02:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。