Fugu-MT 論文翻訳(概要): Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification

論文の概要: Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification

arxiv url: http://arxiv.org/abs/2404.14606v1
Date: Mon, 22 Apr 2024 22:02:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 15:50:59.375067
Title: Cross-Task Multi-Branch Vision Transformer for Facial Expression and Mask Wearing Classification
Title（参考訳）: 顔表情とマスク装着分類のためのクロスタスクマルチブランチ視覚変換器
Authors: Armando Zhu, Keqin Li, Tong Wu, Peng Zhao, Wenjing Zhou, Bo Hong,
Abstract要約: 顔の表情認識とマスキングのための統合型マルチブランチ・ビジョン・トランスフォーマを提案する。本手法では,両タスクの共有機能を二重ブランチアーキテクチャを用いて抽出する。提案するフレームワークは,両タスクで別々のネットワークを使用する場合と比較して,全体的な複雑性を低減する。
参考スコア（独自算出の注目度）: 13.965841383756192
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With wearing masks becoming a new cultural norm, facial expression recognition (FER) while taking masks into account has become a significant challenge. In this paper, we propose a unified multi-branch vision transformer for facial expression recognition and mask wearing classification tasks. Our approach extracts shared features for both tasks using a dual-branch architecture that obtains multi-scale feature representations. Furthermore, we propose a cross-task fusion phase that processes tokens for each task with separate branches, while exchanging information using a cross attention module. Our proposed framework reduces the overall complexity compared with using separate networks for both tasks by the simple yet effective cross-task fusion phase. Extensive experiments demonstrate that our proposed model performs better than or on par with different state-of-the-art methods on both facial expression recognition and facial mask wearing classification task.
Abstract（参考訳）: マスクが新しい文化規範となるにつれ、マスクを考慮した表情認識(FER)が大きな課題となっている。本稿では,顔表情認識のための統合型マルチブランチ・ビジョン・トランスフォーマと,分類タスクを装着したマスクを提案する。提案手法は,マルチスケールな特徴表現を得るデュアルブランチアーキテクチャを用いて,両タスクの共通特徴を抽出する。さらに、クロスアテンションモジュールを用いて情報を交換しながら、各タスクのトークンを別々のブランチで処理するクロスタスク融合フェーズを提案する。提案するフレームワークは, 単純かつ効果的なクロスタスク融合フェーズにより, 両方のタスクに個別のネットワークを使用する場合と比較して, 全体的な複雑性を低減させる。大規模な実験により,提案手法は顔の表情認識と顔のマスマスキングの両面において,従来手法と同等以上の性能を示した。

関連論文リスト

Sparse-LaViDa: Sparse Multimodal Discrete Diffusion Language Models [63.50827603618498]
提案するSparse-LaViDaは,MDMサンプリングを高速化するために,各推論ステップで不要なマスク付きトークンをトランケートするモデリングフレームワークである。最先端の統一MDM LaViDa-Oをベースに構築されたSparse-LaViDaは、さまざまなタスクで最大2倍のスピードアップを実現している。
論文参考訳（メタデータ） (2025-12-16T02:06:06Z)
Multivariate Diffusion Transformer with Decoupled Attention for High-Fidelity Mask-Text Collaborative Facial Generation [33.45651294176388]
MDiTFaceは、セマンティックマスクとテキスト入力を処理するために統一トークン化戦略を利用する、カスタマイズされた拡散トランスフォーマーフレームワークである。大規模な実験により、MDiTFaceは顔の忠実度と条件整合性の両方において、競合する他の手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2025-11-16T14:52:54Z)
O-MaMa @ EgoExo4D Correspondence Challenge: Learning Object Mask Matching between Egocentric and Exocentric Views [41.98584849589569]
本報告では、マスクマッチングタスクとして扱うことにより、クロスイメージセグメンテーションを再定義する。提案手法は,(1)高密度DINOv2セマンティックな特徴をプールし,FastSAMマスク候補から識別対象レベルの表現を得るマスクコンテキスト,(2)多視点観測を融合するEgo$leftarrow$Exoクロスアテンション,(3)共有潜在空間におけるクロスビュー特徴を整列するマスクマッチングコントラスト損失からなる。
論文参考訳（メタデータ） (2025-06-06T12:19:08Z)
HiMTok: Learning Hierarchical Mask Tokens for Image Segmentation with Large Multimodal Model [6.641903410779405]
最大32個のトークンを持つセグメンテーションマスクを表すHiMTok(Hierarchical Mask Tokenizer)を提案する。 HiMTokは、コンパクトで粗いマスク表現を可能にし、次世代の予測パラダイムとよく一致している。分割と視覚能力の進歩的な学習のための3段階のトレーニングレシピを開発し,階層的なマスクロスを特徴とし,より効果的な粗い学習を行う。
論文参考訳（メタデータ） (2025-03-17T10:29:08Z)
Soften the Mask: Adaptive Temporal Soft Mask for Efficient Dynamic Facial Expression Recognition [4.151073288078749]
動的表情認識(DFER)は,非言語コミュニケーションによる心理的意図の理解を促進する。既存の手法では、バックグラウンドノイズや冗長なセマンティクスといった無関係な情報を管理するのに苦労し、効率と有効性の両方に影響を及ぼす。そこで本稿では,DFERのための新しい教師付き仮面自動エンコーダネットワーク,すなわちAdaToskを提案する。
論文参考訳（メタデータ） (2025-02-28T12:45:08Z)
Look Through Masks: Towards Masked Face Recognition with De-Occlusion Distillation [39.159835055226274]
本稿では, マスク面認識の課題に対するアモーダル完了のメカニズムを, エンド・ツー・エンド・エンド・デオクルージョン蒸留フレームワークを用いて移行することを提案する。合成対向ネットワークを適用して顔補完を行い、マスクの下にある内容を回復し、外観の曖昧さを解消する。テキスト蒸留モジュールは、訓練済みの一般顔認識モデルを教師として受け取り、その知識を、完成した顔の学習者に伝達する。
論文参考訳（メタデータ） (2024-09-19T01:00:36Z)
Pluralistic Salient Object Detection [108.74650817891984]
本稿では,与えられた入力画像に対して,複数の有意な有意な有意な有意な有意な有意な分割結果を生成することを目的とした新しい課題であるPSOD(multiistic Salient Object Detection)を紹介する。新たに設計された評価指標とともに,2つのSODデータセット "DUTS-MM" と "DUS-MQ" を提案する。
論文参考訳（メタデータ） (2024-09-04T01:38:37Z)
Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文参考訳（メタデータ） (2024-06-28T10:05:58Z)
FaceXFormer: A Unified Transformer for Facial Analysis [59.94066615853198]
FaceXformerは、さまざまな顔分析タスクのためのエンドツーエンドの統一トランスフォーマーモデルである。本モデルでは,8つのタスクにまたがる頑健さと一般化性を実証し,画像の「夢中」を効果的に処理する。
論文参考訳（メタデータ） (2024-03-19T17:58:04Z)
A Simple Latent Diffusion Approach for Panoptic Segmentation and Mask Inpainting [2.7563282688229664]
この研究は安定拡散の上に構築され、汎視的セグメンテーションに対する潜時拡散アプローチを提案する。トレーニングは,(1)部分分割マスクを潜伏空間に投影する浅層オートエンコーダの訓練,(2)潜伏空間における画像条件付きサンプリングを可能にする拡散モデルの訓練,の2段階からなる。
論文参考訳（メタデータ） (2024-01-18T18:59:19Z)
Seeing through the Mask: Multi-task Generative Mask Decoupling Face Recognition [47.248075664420874]
現在の一般的な顔認識システムは、隠蔽シーンに遭遇する際の重大な性能劣化に悩まされている。本稿では,これら2つのタスクを協調的に扱うために,マルチタスクのgEnerative mask dEcoupling Face Recognition (MEER) ネットワークを提案する。まず,マスクと識別情報を分離する新しいマスクデカップリングモジュールを提案する。
論文参考訳（メタデータ） (2023-11-20T03:23:03Z)
SwinFace: A Multi-task Transformer for Face Recognition, Expression Recognition, Age Estimation and Attribute Estimation [60.94239810407917]
本論文では,単一スウィントランスを用いた顔認識,表情認識,年齢推定,顔属性推定のための多目的アルゴリズムを提案する。複数のタスク間の競合に対処するため、マルチレベルチャネル注意(MLCA)モジュールをタスク固有の分析に統合する。実験の結果,提案したモデルでは顔の理解が良く,全てのタスクにおいて優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2023-08-22T15:38:39Z)
Self-Supervised Visual Representations Learning by Contrastive Mask Prediction [129.25459808288025]
視覚表現学習のための新しいコントラストマスク予測(CMP)タスクを提案する。 MaskCoは、ビューレベルの機能ではなく、リージョンレベルの機能と対比している。我々は、ImageNet以外のデータセットのトレーニングでMaskCoを評価し、そのパフォーマンスをMoCo V2と比較した。
論文参考訳（メタデータ） (2021-08-18T02:50:33Z)
Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文参考訳（メタデータ） (2021-08-15T11:23:34Z)
FT-TDR: Frequency-guided Transformer and Top-Down Refinement Network for Blind Face Inpainting [77.78305705925376]
ブラインド・フェイス・インペインティング(ブラインド・フェイス・インペインティング)とは、顔画像の劣化した領域を明確に示さずに、視覚コンテンツを再構築する作業である。本稿では、これらの課題に対処するために、周波数誘導変換器とTop-Down Refinement Network(FT-TDR)と呼ばれる新しい2段階ブラインドフェイス塗装法を提案する。
論文参考訳（メタデータ） (2021-08-10T03:12:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。