論文の概要: Knowing When to Quit: Selective Cascaded Regression with Patch Attention
for Real-Time Face Alignment
- arxiv url: http://arxiv.org/abs/2108.00377v1
- Date: Sun, 1 Aug 2021 06:51:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 08:31:03.592569
- Title: Knowing When to Quit: Selective Cascaded Regression with Patch Attention
for Real-Time Face Alignment
- Title(参考訳): いつ辞めるかを知る:リアルタイム顔アライメントのためのパッチアライメントによる選択的カスケード回帰
- Authors: Gil Shapira, Noga Levy, Ishay Goldin, Roy J. Jevnisek
- Abstract要約: 中性表現を持つ正面の顔は、極端なポーズや表情を持つ顔よりも早く収束することを示す。
マルチスケールでパッチベースの軽量な特徴抽出器と、きめ細かい局所的なパッチアテンションモジュールを提供する。
我々のモデルは、95 Mega Multiply-Add (MMA) 演算でモバイルデバイス GPU 上でリアルタイムに動作し、1000 MMA 以下の最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Facial landmarks (FLM) estimation is a critical component in many
face-related applications. In this work, we aim to optimize for both accuracy
and speed and explore the trade-off between them. Our key observation is that
not all faces are created equal. Frontal faces with neutral expressions
converge faster than faces with extreme poses or expressions. To differentiate
among samples, we train our model to predict the regression error after each
iteration. If the current iteration is accurate enough, we stop iterating,
saving redundant iterations while keeping the accuracy in check. We also
observe that as neighboring patches overlap, we can infer all facial landmarks
(FLMs) with only a small number of patches without a major accuracy sacrifice.
Architecturally, we offer a multi-scale, patch-based, lightweight feature
extractor with a fine-grained local patch attention module, which computes a
patch weighting according to the information in the patch itself and enhances
the expressive power of the patch features. We analyze the patch attention data
to infer where the model is attending when regressing facial landmarks and
compare it to face attention in humans. Our model runs in real-time on a mobile
device GPU, with 95 Mega Multiply-Add (MMA) operations, outperforming all
state-of-the-art methods under 1000 MMA, with a normalized mean error of 8.16
on the 300W challenging dataset.
- Abstract(参考訳): 顔のランドマーク(FLM)推定は多くの顔関連アプリケーションにおいて重要な要素である。
本研究では,精度と速度の両方を最適化し,両者のトレードオフを探究する。
私たちの重要な観察は、すべての顔が等しく作られるわけではないということです。
中性表現を持つ正面の顔は、極端なポーズや表情を持つ顔よりも早く収束する。
サンプルを区別するために、各反復後の回帰誤差を予測するためにモデルを訓練する。
現在のイテレーションが十分に正確であれば、反復をやめ、冗長なイテレーションを節約し、精度を保ちます。
また、隣り合うパッチが重なるにつれて、少数のパッチしか持たないすべての顔ランドマーク(flm)を、大きな正確さを犠牲にすることなく推測できることも観察した。
アーキテクチャ的には,パッチ自体の情報に応じてパッチ重み付けを計算し,パッチ機能の表現力を高める,細粒度の局所パッチアテンションモジュールを備えた,マルチスケールでパッチベース,軽量な機能抽出器を提供する。
本研究は,顔のランドマークを回帰する際に,モデルがどこに出席しているかを推定するためにパッチアテンションデータを解析し,人間の顔アテンションと比較する。
我々のモデルはモバイルデバイスGPU上でリアルタイムに動作し、95Mega Multiply-Add(MMA)演算で1000MMA未満の最先端メソッドをすべて上回り、300W挑戦データセットでは平均エラーが8.16である。
関連論文リスト
- Learning to Embed Time Series Patches Independently [5.752266579415516]
近年,時系列モデリングは時系列の自己教師型表現学習戦略として注目されている。
このようなパッチをキャプチャすることは、時系列表現学習の最適戦略ではないかもしれない、と我々は主張する。
本論文では,1)他のパッチを見ることなく各パッチを自動エンコードするシンプルなパッチ再構築タスク,2)個別に各パッチを埋め込むシンプルなパッチワイド再構築タスクを提案する。
論文 参考訳(メタデータ) (2023-12-27T06:23:29Z) - Bootstrap Masked Visual Modeling via Hard Patches Mining [68.74750345823674]
マスク付き視覚モデリングは、一般化可能な表現の学習において有望な可能性を秘めているため、多くの注目を集めている。
モデルが教師の靴の中に立つことは同様に重要であると我々は主張する。
教師としてのモデルを強化するため,我々はハードパッチマイニング(HPM, Hard Patches Mining)を提案し,パッチワイド損失を予測し,次にマスクの場所を決定する。
論文 参考訳(メタデータ) (2023-12-21T10:27:52Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - Fixing Model Bugs with Natural Language Patches [38.67529353406759]
私たちは、開発者が適切な抽象化レベルで修正的なフィードバックを提供できるように、自然言語パッチを調査します。
少量の合成データを用いて、実際のデータに実際のパッチを効果的に利用するモデルを教えることができることを示す。
また、少数の言語パッチのパフォーマンスに合わせるために、ラベル付き例を100個まで微調整する必要があることも示している。
論文 参考訳(メタデータ) (2022-11-07T05:49:19Z) - Accelerating Vision Transformer Training via a Patch Sampling Schedule [0.685316573653194]
我々は、パッチサンプリングスケジュール(PSS)の概念を導入する。
PSSは、トレーニング中にバッチ毎に使用するビジョントランスフォーマー(ViT)パッチの数を変える。
PSSを用いたトレーニングにより、ViTは推論中により広いパッチサンプリング範囲に対してより堅牢になる。
論文 参考訳(メタデータ) (2022-08-19T19:16:46Z) - Patching open-vocabulary models by interpolating weights [85.12977566514984]
CLIPのようなオープン語彙モデルは、多くの画像分類タスクで高い精度を達成する。
そこでは,すでに性能が十分であるタスクの精度を低下させることなく,特定のタスクの精度を向上させることを目標とするモデルパッチについて検討する。
本研究は,開語彙モデルがスクラッチから再学習することなく高い精度を達成できる課題の集合を拡張することができることを示した。
論文 参考訳(メタデータ) (2022-08-10T23:47:43Z) - Subpixel Heatmap Regression for Facial Landmark Localization [65.41270740933656]
熱マップ回帰法は、熱マップ符号化と復号処理の両方に関連する離散化による誤差に悩まされる。
本稿では,熱マップの符号化と復号化に基礎となる連続分布を利用した新しい手法を提案する。
我々のアプローチは、顔のランドマークのローカライゼーションに新しい最先端の結果を設定する複数のデータセット間で顕著な利得を提供する。
論文 参考訳(メタデータ) (2021-11-03T17:21:28Z) - Accurate, Interpretable, and Fast Animation: AnIterative, Sparse, and
Nonconvex Approach [0.9176056742068814]
フェイスリグは正確でなければならないと同時に、その問題を解決するために高速に計算する必要がある。
各共通アニメーションモデルのパラメータの1つは、スパーシティ正規化である。
複雑性を低減するため、パラダイム・プライマリゼーション・ミニ(MM)が適用される。
論文 参考訳(メタデータ) (2021-09-17T05:42:07Z) - Rethinking Generative Zero-Shot Learning: An Ensemble Learning
Perspective for Recognising Visual Patches [52.67723703088284]
我々はMPGAN(Multi-patch Generative Adversarial Nets)と呼ばれる新しいフレームワークを提案する。
MPGANは、新しい重み付き投票戦略で、ローカルパッチ機能とラベルが見えないクラスを合成する。
MPGANは最先端の手法よりもはるかに精度が高い。
論文 参考訳(メタデータ) (2020-07-27T05:49:44Z) - Pixel-in-Pixel Net: Towards Efficient Facial Landmark Detection in the
Wild [104.61677518999976]
顔のランドマークを検出するために,Pixel-in-Pixel Net(PIPNet)を提案する。
提案モデルは,熱マップ回帰に基づく新しい検出ヘッドを備える。
PIPNetのクロスドメイン一般化能力をさらに向上するため,カリキュラムによる自己学習を提案する。
論文 参考訳(メタデータ) (2020-03-08T12:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。