論文の概要: FG-Net: Facial Action Unit Detection with Generalizable Pyramidal
Features
- arxiv url: http://arxiv.org/abs/2308.12380v1
- Date: Wed, 23 Aug 2023 18:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 16:39:38.593545
- Title: FG-Net: Facial Action Unit Detection with Generalizable Pyramidal
Features
- Title(参考訳): FG-Net:一般化可能なピラミッド特徴を用いた顔行動単位検出
- Authors: Yufeng Yin, Di Chang, Guoxian Song, Shen Sang, Tiancheng Zhi, Jing
Liu, Linjie Luo, Mohammad Soleymani
- Abstract要約: 以前のAU検出方法はデータセットにオーバーフィットする傾向があり、コーパス間で評価された場合、大きなパフォーマンス損失が発生する。
一般化可能な顔行動単位検出のためのFG-Netを提案する。
具体的には、FG-Netは、大規模で多様な顔画像データセットで事前訓練されたStyleGAN2モデルから特徴マップを抽出する。
- 参考スコア(独自算出の注目度): 13.176011491885664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic detection of facial Action Units (AUs) allows for objective facial
expression analysis. Due to the high cost of AU labeling and the limited size
of existing benchmarks, previous AU detection methods tend to overfit the
dataset, resulting in a significant performance loss when evaluated across
corpora. To address this problem, we propose FG-Net for generalizable facial
action unit detection. Specifically, FG-Net extracts feature maps from a
StyleGAN2 model pre-trained on a large and diverse face image dataset. Then,
these features are used to detect AUs with a Pyramid CNN Interpreter, making
the training efficient and capturing essential local features. The proposed
FG-Net achieves a strong generalization ability for heatmap-based AU detection
thanks to the generalizable and semantic-rich features extracted from the
pre-trained generative model. Extensive experiments are conducted to evaluate
within- and cross-corpus AU detection with the widely-used DISFA and BP4D
datasets. Compared with the state-of-the-art, the proposed method achieves
superior cross-domain performance while maintaining competitive within-domain
performance. In addition, FG-Net is data-efficient and achieves competitive
performance even when trained on 1000 samples. Our code will be released at
\url{https://github.com/ihp-lab/FG-Net}
- Abstract(参考訳): 顔行動ユニット(AU)の自動検出は、客観的な表情分析を可能にする。
AUラベリングのコストが高く、既存のベンチマークのサイズが限られているため、以前のAU検出方法はデータセットに過度に適合する傾向にあり、コーパス間で評価された場合、大きなパフォーマンス損失が発生する。
この問題に対処するために,一般化可能な顔行動単位検出のためのFG-Netを提案する。
具体的には、FG-Netは、大きく多様な顔画像データセットで事前訓練されたStyleGAN2モデルから特徴マップを抽出する。
そしてこれらの機能は、ピラミッドCNNインタープリタでAUを検出し、トレーニングを効率的にし、重要なローカル特徴をキャプチャする。
提案するfg-netは,事前学習した生成モデルから抽出した汎用的かつ意味豊かな特徴により,ヒートマップに基づくau検出の強力な一般化を実現する。
広範に使用されているdisFAとBP4Dデータセットを用いて、内部およびクロスコーパスAU検出の評価実験を行った。
最新の技術と比較した場合,提案手法はドメイン内性能を維持しつつ,優れたクロスドメイン性能を実現する。
さらに、FG-Netはデータ効率が良く、1000のサンプルでトレーニングしても競合性能を発揮する。
我々のコードは \url{https://github.com/ihp-lab/FG-Net} でリリースされる。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Human Semantic Segmentation using Millimeter-Wave Radar Sparse Point
Clouds [3.3888257250564364]
本稿では,ミリ波レーダの粗い逐次点雲のセマンティックセグメンテーションのためのフレームワークを提案する。
mmWaveデータの空間的特徴と時間的トポロジ的特徴は依然として問題である。
グラフ構造とトポロジ的特徴をポイントクラウドに導入し,セマンティックセグメンテーションフレームワークを提案する。
我々のモデルは、$mathbf82.31%$でカスタムデータセットの平均精度を達成し、最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-04-27T12:28:06Z) - Long Range Object-Level Monocular Depth Estimation for UAVs [0.0]
本稿では,画像からモノクロ物体を長距離検出するための最先端手法の新たな拡張法を提案する。
まず、回帰タスクとして深度推定をモデル化する際、SigmoidおよびReLUライクエンコーディングを提案する。
次に,深度推定を分類問題とし,訓練損失の計算にソフトアルグマックス関数を導入する。
論文 参考訳(メタデータ) (2023-02-17T15:26:04Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Structure-Consistent Weakly Supervised Salient Object Detection with
Local Saliency Coherence [14.79639149658596]
本論文では,スクリブルアノテーションによる弱監督オブジェクト検出のための1ラウンドのエンドツーエンドトレーニング手法を提案する。
6つのベンチマークで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-12-08T12:49:40Z) - End-to-End Object Detection with Fully Convolutional Network [71.56728221604158]
エンドツーエンド検出を実現するために,分類のための予測対応ワン・ツー・ワン (POTO) ラベルの割り当てを導入する。
局所領域における畳み込みの判別性を向上させるために, 簡易な3次元maxフィルタ(3dmf)を提案する。
エンドツーエンドのフレームワークは,COCOおよびCrowdHumanデータセット上のNMSを用いて,最先端の多くの検出器と競合する性能を実現する。
論文 参考訳(メタデータ) (2020-12-07T09:14:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。