論文の概要: Prior-based Objective Inference Mining Potential Uncertainty for Facial Expression Recognition
- arxiv url: http://arxiv.org/abs/2411.13024v1
- Date: Wed, 20 Nov 2024 04:13:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:17.307430
- Title: Prior-based Objective Inference Mining Potential Uncertainty for Facial Expression Recognition
- Title(参考訳): 顔表情認識のための事前ベース客観的推論マイニングの可能性不確実性
- Authors: Hanwei Liu, Huiling Cai, Qingcheng Lin, Xuefeng Li, Hui Xiao,
- Abstract要約: 本稿では,Prior-based Objective Inference (POI) ネットワークを提案する。
POIは、より客観的で多様な感情分布を導き出すために、事前の知識を使用している。
POIは、合成ノイズデータセットと複数の実世界のデータセットの両方で競合性能を示す。
- 参考スコア(独自算出の注目度): 4.097773299719266
- License:
- Abstract: Annotation ambiguity caused by the inherent subjectivity of visual judgment has always been a major challenge for Facial Expression Recognition (FER) tasks, particularly for largescale datasets from in-the-wild scenarios. A potential solution is the evaluation of relatively objective emotional distributions to help mitigate the ambiguity of subjective annotations. To this end, this paper proposes a novel Prior-based Objective Inference (POI) network. This network employs prior knowledge to derive a more objective and varied emotional distribution and tackles the issue of subjective annotation ambiguity through dynamic knowledge transfer. POI comprises two key networks: Firstly, the Prior Inference Network (PIN) utilizes the prior knowledge of AUs and emotions to capture intricate motion details. To reduce over-reliance on priors and facilitate objective emotional inference, PIN aggregates inferential knowledge from various key facial subregions, encouraging mutual learning. Secondly, the Target Recognition Network (TRN) integrates subjective emotion annotations and objective inference soft labels provided by the PIN, fostering an understanding of inherent facial expression diversity, thus resolving annotation ambiguity. Moreover, we introduce an uncertainty estimation module to quantify and balance facial expression confidence. This module enables a flexible approach to dealing with the uncertainties of subjective annotations. Extensive experiments show that POI exhibits competitive performance on both synthetic noisy datasets and multiple real-world datasets. All codes and training logs will be publicly available at https://github.com/liuhw01/POI.
- Abstract(参考訳): 視覚的判断の固有の主観性に起因するアノテーションの曖昧さは、顔の表情認識(FER)タスクにおいて、特に夢中なシナリオからの大規模なデータセットにとって、常に大きな課題である。
潜在的な解決策は、主観的アノテーションのあいまいさを軽減するために、比較的客観的な感情分布を評価することである。
そこで本研究では,POI(Presideed-based Objective Inference)ネットワークを提案する。
このネットワークは、より客観的で多様な感情分布を導き出すために事前知識を使用し、動的知識伝達を通じて主観的アノテーション曖昧性の問題に取り組む。
POIは2つの主要なネットワークから構成される: まず、プライオリティ推論ネットワーク(PIN)は、AUの事前知識と感情を利用して、複雑な動きの詳細をキャプチャする。
事前の過度な信頼を減らし、客観的な感情的推論を促進するため、PINは様々な重要な顔領域からの推論知識を集約し、相互学習を促進する。
第二に、ターゲット認識ネットワーク(TRN)は、PINが提供する主観的感情アノテーションと客観的推論ソフトラベルを統合し、固有の表情の多様性の理解を深め、アノテーションの曖昧さを解消する。
さらに,表情の信頼度を定量化しバランスをとる不確実性推定モジュールを導入する。
このモジュールは、主観的アノテーションの不確実性を扱うための柔軟なアプローチを可能にする。
大規模な実験により、POIは合成ノイズデータセットと複数の実世界のデータセットの両方で競合性能を示すことが示された。
すべてのコードとトレーニングログはhttps://github.com/liuhw01/POIで公開される。
関連論文リスト
- Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Prior Aided Streaming Network for Multi-task Affective Recognitionat the
2nd ABAW2 Competition [9.188777864190204]
我々は第2回ABAW2コンペティション(ABAW2コンペティション)に応募する。
異なる感情表現を扱う際に,マルチタスク・ストリーミング・ネットワークを提案する。
我々は、先行知識として高度な表情埋め込みを活用している。
論文 参考訳(メタデータ) (2021-07-08T09:35:08Z) - Dive into Ambiguity: Latent Distribution Mining and Pairwise Uncertainty
Estimation for Facial Expression Recognition [59.52434325897716]
DMUE(DMUE)という,アノテーションのあいまいさを2つの視点から解決するソリューションを提案する。
前者に対しては,ラベル空間における潜伏分布をよりよく記述するために,補助的マルチブランチ学習フレームワークを導入する。
後者の場合、インスタンス間の意味的特徴のペアワイズ関係を完全に活用して、インスタンス空間のあいまいさの程度を推定する。
論文 参考訳(メタデータ) (2021-04-01T03:21:57Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Disentanglement for Discriminative Visual Recognition [7.954325638519141]
この章では、有害な要因を、タスク関連/非関連なセマンティックなバリエーションと、特定されていない潜伏的なバリエーションとして体系的に要約する。
統合された2つの完全に接続されたレイヤブランチフレームワークにおいて、ディープメトリックロスとソフトマックスロスを組み合わせることで、より優れたFER性能を実現することができる。
このフレームワークは、照明、化粧、変装耐性顔認証、顔属性認識など、一連のタスクにおいて最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T06:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。