論文の概要: Mutual Information Regularized Identity-aware Facial
ExpressionRecognition in Compressed Video
- arxiv url: http://arxiv.org/abs/2010.10637v2
- Date: Sat, 5 Jun 2021 15:09:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 06:38:56.111289
- Title: Mutual Information Regularized Identity-aware Facial
ExpressionRecognition in Compressed Video
- Title(参考訳): 圧縮ビデオにおける顔表情認識の相互情報正規化
- Authors: Xiaofeng Liu, Linghao Jin, Xu Han, Jane You
- Abstract要約: 本稿では,相互情報(MI)を最小化するための新しい協調ミンミニゲームを提案する。
同一人物からの識別ラベルや複数の表現サンプルは不要である。
我々のソリューションは、最近のデコードされた画像ベース手法に匹敵する、あるいは優れた性能を実現することができる。
- 参考スコア(独自算出の注目度): 27.602648102881535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to extract effective expression representations that invariant to the
identity-specific attributes is a long-lasting problem for facial expression
recognition (FER). Most of the previous methods process the RGB images of a
sequence, while we argue that the off-the-shelf and valuable expression-related
muscle movement is already embedded in the compression format. In this paper,
we target to explore the inter-subject variations eliminated facial expression
representation in the compressed video domain. In the up to two orders of
magnitude compressed domain, we can explicitly infer the expression from the
residual frames and possibly extract identity factors from the I frame with a
pre-trained face recognition network. By enforcing the marginal independence of
them, the expression feature is expected to be purer for the expression and be
robust to identity shifts. Specifically, we propose a novel collaborative
min-min game for mutual information (MI) minimization in latent space. We do
not need the identity label or multiple expression samples from the same person
for identity elimination. Moreover, when the apex frame is annotated in the
dataset, the complementary constraint can be further added to regularize the
feature-level game. In testing, only the compressed residual frames are
required to achieve expression prediction. Our solution can achieve comparable
or better performance than the recent decoded image-based methods on the
typical FER benchmarks with about 3 times faster inference.
- Abstract(参考訳): 識別特化属性に不変な効果的な表現表現を抽出する方法は、顔表情認識(FER)の長期的課題である。
従来の手法のほとんどがRGB画像のシーケンスを処理するが、既成で価値ある表現関連筋運動はすでに圧縮形式に埋め込まれていると論じている。
本稿では,圧縮ビデオ領域における表情表現を排除したオブジェクト間の変動を探索する。
最大2桁の圧縮領域では、残留フレームから表現を明示的に推測し、事前訓練された顔認識ネットワークを用いてIフレームから識別因子を抽出することができる。
それらの限界独立を強制することにより、表現特徴は表現に適しており、アイデンティティシフトに対して堅牢であることが期待される。
具体的には,潜在空間における相互情報(mi)最小化のための新しい協調ミニミンゲームを提案する。
同一人物からの識別ラベルや複数の表現サンプルは不要である。
さらに、データセットに頂点フレームがアノテートされると、補足制約を追加して特徴レベルのゲームを正規化することができる。
実験では, 圧縮残枠のみを圧縮して表現予測を行う必要がある。
私たちのソリューションは、典型的なferベンチマークのデコードされたイメージベースメソッドと比較して、約3倍の速度で性能が向上します。
関連論文リスト
- Personalized Face Inpainting with Diffusion Models by Parallel Visual
Attention [55.33017432880408]
本稿では,パラレル視覚注意(PVA, Parallel Visual Attention, PVA)と拡散モデルとの併用による塗装結果の改善を提案する。
我々はCelebAHQ-IDIで注目モジュールとIDエンコーダをトレーニングする。
実験により, PVAは顔の塗り絵と顔の塗り絵の両面において, 言語指導タスクと相容れない同一性を持つことが示された。
論文 参考訳(メタデータ) (2023-12-06T15:39:03Z) - Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for
Occluded Facial Expression Recognition [0.0]
提案手法は, 顔の隠蔽部分を, 隠蔽されていないかのように検出し, 認識し, FER精度を向上する。
まず、視覚変換器(ViT)ベースのオクルージョンパッチ検出器は、隠蔽されたパッチから潜在ベクトルのみを訓練することで、隠蔽された位置をマスクする。
第2に、ハイブリッド再構成ネットワークは、ViTと畳み込みニューラルネットワーク(CNN)を用いて、完全な画像としてマスキング位置を生成する。
最後に、式関連潜時ベクトル抽出器は、CNNに基づくクラスアクティベーションマップを適用して、すべての潜時ベクトルから式関連情報を検索し、使用する。
論文 参考訳(メタデータ) (2023-07-21T07:56:32Z) - Set-Based Face Recognition Beyond Disentanglement: Burstiness
Suppression With Variance Vocabulary [78.203301910422]
SFRにおける2つの重要な問題は、顔の品質とバーストネスであり、アイデンティティ非関連と分散関連の両方である、と我々は主張する。
分散特徴と同一性の特徴を分離する軽量な集合ベース・アンタングルメント・フレームワークを提案する。
集合における顔のバースト性を抑制するために,語彙ベースバースト抑制法(VBS)を提案する。
論文 参考訳(メタデータ) (2023-04-13T04:02:58Z) - Optimal Transport-based Identity Matching for Identity-invariant Facial
Expression Recognition [33.072870202596725]
アイデンティティ不変な表情認識(FER)は、コンピュータビジョンの課題のひとつだ。
本稿では,特定のマッチングプロセスを通じて探索された類似表現のペアを利用して,同一性間の変動を定量化する。
提案手法は,他のモデルに簡単に接続できるだけでなく,計算オーバーヘッドも許容できる。
論文 参考訳(メタデータ) (2022-09-25T07:30:44Z) - Disentangling Identity and Pose for Facial Expression Recognition [54.50747989860957]
より識別的な特徴表現を学習するために,識別モデルを提案し,不整形表情認識(IPD-FER)モデルを提案する。
アイデンティティエンコーダでは、訓練中に訓練済みの顔認識モデルを利用して固定し、特定の表情訓練データに対する制限を軽減する。
合成された中性画像と同一個体の表情画像との差を比較することにより、表現成分はアイデンティティやポーズからさらに切り離される。
論文 参考訳(メタデータ) (2022-08-17T06:48:13Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Identity-aware Facial Expression Recognition in Compressed Video [27.14473209125735]
最大2桁の圧縮された領域では、残留フレームから式を明示的に推測することができる。
私達は同一人物からの同一証明ラベルか複数の表現のサンプルを同一証明の除去のために必要としません。
私たちのソリューションは、最近のデコードされたイメージベースメソッドと同等あるいは優れたパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2021-01-01T21:03:13Z) - Blind Face Restoration via Deep Multi-scale Component Dictionaries [75.02640809505277]
劣化した観測の復元過程をガイドするディープフェイス辞書ネットワーク(DFDNet)を提案する。
DFDNetは高品質な画像から知覚的に重要な顔成分のディープ辞書を生成する。
コンポーネントAdaINは、入力機能と辞書機能の間のスタイルの多様性を取り除くために利用される。
論文 参考訳(メタデータ) (2020-08-02T07:02:07Z) - LEED: Label-Free Expression Editing via Disentanglement [57.09545215087179]
LEEDフレームワークは、表現ラベルを必要とせずに、前頭顔画像とプロファイル顔画像の両方の表現を編集することができる。
2つの新たな損失は、最適な表現の切り離しと一貫した合成のために設計されている。
論文 参考訳(メタデータ) (2020-07-17T13:36:15Z) - Fine-Grained Expression Manipulation via Structured Latent Space [30.789513209376032]
本稿では,表現の微粒化を操作するために,エンド・ツー・エンドな表現誘導型生成対向ネットワーク(EGGAN)を提案する。
提案手法は,微粒な表現を操作でき,ソースとターゲットの表現間の連続的な中間表現を生成する。
論文 参考訳(メタデータ) (2020-04-21T06:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。