Fugu-MT 論文翻訳(概要): Deep Active Shape Model for Face Alignment and Pose Estimation

論文の概要: Deep Active Shape Model for Face Alignment and Pose Estimation

arxiv url: http://arxiv.org/abs/2103.00119v1
Date: Sat, 27 Feb 2021 03:46:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-05 16:49:14.143592
Title: Deep Active Shape Model for Face Alignment and Pose Estimation
Title（参考訳）: 顔アライメントとポーズ推定のための深部能動形状モデル
Authors: Ali Pourramezan Fard, Hojjat Abdollahi, Mohammad Mahoor
Abstract要約: アクティブシェイプモデル(Active Shape Model、ASM)は、ターゲット構造を表すオブジェクトシェイプの統計モデルです。本稿では,顔のアライメントと頭部のポーズ推定のためにASMによって正規化された損失関数を備えた,軽量な畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。
参考スコア（独自算出の注目度）: 0.2148535041822524
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Active Shape Model (ASM) is a statistical model of object shapes that represents a target structure. ASM can guide machine learning algorithms to fit a set of points representing an object (e.g., face) onto an image. This paper presents a lightweight Convolutional Neural Network (CNN) architecture with a loss function regularized by ASM for face alignment and estimating head pose in the wild. The ASM-based regularization term in the loss function would guide the network to learn faster, generalize better, and hence handle challenging examples even with light-weight network architecture. We define multi-tasks in our loss function that are responsible for detecting facial landmark points, as well as estimating face pose. Learning multiple correlated tasks simultaneously builds synergy and improves the performance of individual tasks. Experimental results on challenging datasets show that our proposed ASM regularized loss function achieves competitive performance for facial landmark points detection and pose estimation using a very light-weight CNN architecture.
Abstract（参考訳）: アクティブシェイプモデル(Active Shape Model、ASM)は、ターゲット構造を表すオブジェクトシェイプの統計モデルです。 ASMは機械学習アルゴリズムを導いて、物体(顔など)を表す一連の点を画像に合わせることができる。本稿では,顔のアライメントと頭部のポーズ推定のためにASMによって正規化された損失関数を備えた,軽量な畳み込みニューラルネットワーク(CNN)アーキテクチャを提案する。損失関数におけるASMベースの正規化項は、ネットワークを高速に学習し、より一般化し、軽量なネットワークアーキテクチャでさえ挑戦的な例を扱うように誘導する。我々は、顔のランドマークポイントの検出と顔のポーズの推定を行うロス関数において、マルチタスクを定義する。複数の関連タスクの学習は同時にシナジーを構築し、個々のタスクのパフォーマンスを改善する。その結果,提案するasm正規化損失関数は,非常に軽量なcnnアーキテクチャを用いた顔ランドマーク点検出とポーズ推定の競合性能が得られることがわかった。

関連論文リスト

Understanding the Transfer Limits of Vision Foundation Models [38.99867932557529]
ファンデーションモデルは大規模な事前学習を利用して広範な知識を捉え、幅広い言語タスクにおける一般化を実証する。この制限は、事前学習目標と下流の視覚・画像タスクの要求とのミスマッチから生じると仮定する。一般的な視覚パターンの回復やグローバルな意味構造などのタスクに対する、マスク付き画像再構成や対照的な学習形状表現などの事前学習戦略。以上の結果から,事前学習と下流作業の整合性は,最大平均偏差(MMD)などの単純な分散指標によって測定され,微調整前後の同一特徴間の相関が強く,性能改善と相関することが示唆された。
論文参考訳（メタデータ） (2026-01-22T12:07:56Z)
RPCANet++: Deep Interpretable Robust PCA for Sparse Object Segmentation [51.37553739930992]
RPCANet++は、RPCAの解釈可能性と効率的なディープアーキテクチャを融合したスパースオブジェクトセグメンテーションフレームワークである。我々のアプローチは、緩やかなRPCAモデルを背景近似モジュール(BAM)、対象抽出モジュール(OEM)、画像復元モジュール(IRM)からなる構造化ネットワークに展開する。さまざまなデータセットの実験では、RPCANet++がさまざまなイメージングシナリオの下で最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-08-06T08:19:37Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
本研究では,(マルチモーダル)自己教師型表現学習のデータ予測タスクにおいて,連続領域における識別確率モデルについて検討する。我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。 MISが要求する条件付き確率密度の和を近似する新しい非パラメトリック手法を提案する。
論文参考訳（メタデータ） (2024-10-11T18:02:46Z)
Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection [1.0358639819750703]
教師なし異常検出(UAD)研究では、計算効率が高くスケーラブルなソリューションを開発する必要がある。再建・塗り替えのアプローチを再考し、強みと弱みを分析して改善する。異常再構成の特徴情報を減衰させる2つの層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。
論文参考訳（メタデータ） (2024-07-05T15:44:53Z)
Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文参考訳（メタデータ） (2024-06-13T17:59:44Z)
MTP: Advancing Remote Sensing Foundation Model via Multi-Task Pretraining [73.81862342673894]
ファンデーションモデルは、様々な画像解釈タスクを強化することで、リモートセンシング(RS)のランドスケープを再構築した。事前訓練されたモデルを下流のタスクに転送することは、イメージ分類やオブジェクト識別タスクとして事前訓練の定式化によるタスクの相違に遭遇する可能性がある。 SAMRSデータセット上で、セマンティックセグメンテーション、インスタンスセグメンテーション、回転オブジェクト検出を含むマルチタスクによる事前トレーニングを行う。我々のモデルは、シーン分類、水平・回転物体検出、セマンティックセグメンテーション、変化検出など、様々なRS下流タスクに基づいて微調整される。
論文参考訳（メタデータ） (2024-03-20T09:17:22Z)
MOS: A Low Latency and Lightweight Framework for Face Detection, Landmark Localization, and Head Pose Estimation [37.537102697992395]
顔検出,ランドマークの定位,頭部ポーズ推定を同時に行うために,低レイテンシで軽量なネットワークを提案する。大きな角度の顔のランドマークを見つけることがより困難であるという観察に刺激され、学習を制限するためにポーズロスが提案される。また,各タスクの重みを自動的に学習するために,不確実なマルチタスク損失を提案する。
論文参考訳（メタデータ） (2021-10-21T08:05:53Z)
Mitigating Performance Saturation in Neural Marked Point Processes: Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文参考訳（メタデータ） (2021-07-07T16:59:14Z)
Progressive Self-Guided Loss for Salient Object Detection [102.35488902433896]
画像中の深層学習に基づくサラエント物体検出を容易にするプログレッシブ自己誘導損失関数を提案する。我々のフレームワークは適応的に集約されたマルチスケール機能を利用して、健全な物体の探索と検出を効果的に行う。
論文参考訳（メタデータ） (2021-01-07T07:33:38Z)
LSM: Learning Subspace Minimization for Low-level Vision [78.27774638569218]
我々は、正規化項を学習可能な部分空間制約に置き換え、データ項をドメイン知識を活用するために保存する。この学習サブスペース最小化(LSM)フレームワークは、多くの低レベル視覚タスクのネットワーク構造とパラメータを統一する。インタラクティブな画像セグメンテーション、ビデオセグメンテーション、ステレオマッチング、オプティカルフローを含む4つの低レベルタスクについてLSMフレームワークを実証し、様々なデータセット上でネットワークを検証した。
論文参考訳（メタデータ） (2020-04-20T10:49:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。