論文の概要: Deep Active Shape Model for Face Alignment and Pose Estimation
- arxiv url: http://arxiv.org/abs/2103.00119v1
- Date: Sat, 27 Feb 2021 03:46:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 16:49:14.143592
- Title: Deep Active Shape Model for Face Alignment and Pose Estimation
- Title(参考訳): 顔アライメントとポーズ推定のための深部能動形状モデル
- Authors: Ali Pourramezan Fard, Hojjat Abdollahi, Mohammad Mahoor
- Abstract要約: アクティブシェイプモデル(Active Shape Model、ASM)は、ターゲット構造を表すオブジェクトシェイプの統計モデルです。
本稿では,顔のアライメントと頭部のポーズ推定のためにASMによって正規化された損失関数を備えた,軽量な畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.2148535041822524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Active Shape Model (ASM) is a statistical model of object shapes that
represents a target structure. ASM can guide machine learning algorithms to fit
a set of points representing an object (e.g., face) onto an image. This paper
presents a lightweight Convolutional Neural Network (CNN) architecture with a
loss function regularized by ASM for face alignment and estimating head pose in
the wild. The ASM-based regularization term in the loss function would guide
the network to learn faster, generalize better, and hence handle challenging
examples even with light-weight network architecture. We define multi-tasks in
our loss function that are responsible for detecting facial landmark points, as
well as estimating face pose. Learning multiple correlated tasks simultaneously
builds synergy and improves the performance of individual tasks. Experimental
results on challenging datasets show that our proposed ASM regularized loss
function achieves competitive performance for facial landmark points detection
and pose estimation using a very light-weight CNN architecture.
- Abstract(参考訳): アクティブシェイプモデル(Active Shape Model、ASM)は、ターゲット構造を表すオブジェクトシェイプの統計モデルです。
ASMは機械学習アルゴリズムを導いて、物体(顔など)を表す一連の点を画像に合わせることができる。
本稿では,顔のアライメントと頭部のポーズ推定のためにASMによって正規化された損失関数を備えた,軽量な畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
損失関数におけるASMベースの正規化項は、ネットワークを高速に学習し、より一般化し、軽量なネットワークアーキテクチャでさえ挑戦的な例を扱うように誘導する。
我々は、顔のランドマークポイントの検出と顔のポーズの推定を行うロス関数において、マルチタスクを定義する。
複数の関連タスクの学習は同時にシナジーを構築し、個々のタスクのパフォーマンスを改善する。
その結果,提案するasm正規化損失関数は,非常に軽量なcnnアーキテクチャを用いた顔ランドマーク点検出とポーズ推定の競合性能が得られることがわかった。
関連論文リスト
- Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - IDmUNet: A new image decomposition induced network for sparse feature
segmentation [5.038878606043249]
UNetとその変種は、医用画像セグメンテーションの最も一般的な方法の一つである。
我々はタスク指向のネットワーク設計を行い、対象のオブジェクトを疎に分散させ、背景を数学的にモデル化することは困難である。
このIDmUNetは、構造設計における事前および深部展開の手法のため、数学的モデリングとデータ駆動アプローチの利点を組み合わせたものである。
論文 参考訳(メタデータ) (2022-03-05T09:17:32Z) - MOS: A Low Latency and Lightweight Framework for Face Detection,
Landmark Localization, and Head Pose Estimation [37.537102697992395]
顔検出,ランドマークの定位,頭部ポーズ推定を同時に行うために,低レイテンシで軽量なネットワークを提案する。
大きな角度の顔のランドマークを見つけることがより困難であるという観察に刺激され、学習を制限するためにポーズロスが提案される。
また,各タスクの重みを自動的に学習するために,不確実なマルチタスク損失を提案する。
論文 参考訳(メタデータ) (2021-10-21T08:05:53Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z) - Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。
我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文 参考訳(メタデータ) (2021-01-07T07:33:38Z) - LSM: Learning Subspace Minimization for Low-level Vision [78.27774638569218]
我々は、正規化項を学習可能な部分空間制約に置き換え、データ項をドメイン知識を活用するために保存する。
この学習サブスペース最小化(LSM)フレームワークは、多くの低レベル視覚タスクのネットワーク構造とパラメータを統一する。
インタラクティブな画像セグメンテーション、ビデオセグメンテーション、ステレオマッチング、オプティカルフローを含む4つの低レベルタスクについてLSMフレームワークを実証し、様々なデータセット上でネットワークを検証した。
論文 参考訳(メタデータ) (2020-04-20T10:49:38Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z) - Weakly Supervised Instance Segmentation by Deep Community Learning [39.18749732409763]
複数のタスクによる深層コミュニティ学習に基づく弱教師付きインスタンスセグメンテーションアルゴリズムを提案する。
我々は、統合されたディープニューラルネットワークアーキテクチャを設計することでこの問題に対処する。
提案アルゴリズムは、弱教師付き設定における最先端性能を実現する。
論文 参考訳(メタデータ) (2020-01-30T08:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。