論文の概要: When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model
- arxiv url: http://arxiv.org/abs/2105.13150v1
- Date: Thu, 27 May 2021 13:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-29 00:53:16.721296
- Title: When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model
- Title(参考訳): Liebig's Barrelが顔のランドマーク検出に遭遇:実用モデル
- Authors: Haibo Jin, Jinpeng Li, Shengcai Liao, Ling Shao
- Abstract要約: 正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
- 参考スコア(独自算出の注目度): 87.25037167380522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, significant progress has been made in the research of facial
landmark detection. However, few prior works have thoroughly discussed about
models for practical applications. Instead, they often focus on improving a
couple of issues at a time while ignoring the others. To bridge this gap, we
aim to explore a practical model that is accurate, robust, efficient,
generalizable, and end-to-end trainable at the same time. To this end, we first
propose a baseline model equipped with one transformer decoder as detection
head. In order to achieve a better accuracy, we further propose two lightweight
modules, namely dynamic query initialization (DQInit) and query-aware memory
(QAMem). Specifically, DQInit dynamically initializes the queries of decoder
from the inputs, enabling the model to achieve as good accuracy as the ones
with multiple decoder layers. QAMem is designed to enhance the discriminative
ability of queries on low-resolution feature maps by assigning separate memory
values to each query rather than a shared one. With the help of QAMem, our
model removes the dependence on high-resolution feature maps and is still able
to obtain superior accuracy. Extensive experiments and analysis on three
popular benchmarks show the effectiveness and practical advantages of the
proposed model. Notably, our model achieves new state of the art on WFLW as
well as competitive results on 300W and COFW, while still running at 50+ FPS.
- Abstract(参考訳): 近年,顔のランドマーク検出の研究において有意な進歩がみられた。
しかしながら、実用的応用のためのモデルについて徹底的に論じられた先行研究はほとんどない。
代わりに、彼らはしばしば、他の問題を無視しながら、一度にいくつかの問題を改善することに焦点を合わせます。
このギャップを埋めるために、我々は、正確で堅牢で、効率的で、一般化可能で、エンドツーエンドで同時にトレーニング可能な実用モデルを探求することを目指している。
そこで本研究では,まず1つのトランスデコーダを検出ヘッドとするベースラインモデルを提案する。
精度を向上させるために,動的クエリ初期化(DQInit)とクエリ対応メモリ(QAMem)の2つの軽量モジュールを提案する。
具体的には、DQInitはインプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度の特徴マップ上のクエリの識別能力を高めるように設計されている。
QAMemの助けを借りて、我々のモデルは高分解能特徴写像への依存を排除し、高い精度を得ることができる。
3つの一般的なベンチマーク実験と分析により,提案モデルの有効性と実用性を示した。
特に,本モデルでは,50FPS以上で動作しながら,300WおよびCOFWの競争結果とともに,WFLW上の新たな技術状況を達成する。
関連論文リスト
- Data-Driven Approaches for Modelling Target Behaviour [1.5495593104596401]
追跡アルゴリズムの性能は、対象の力学に関する選択されたモデル仮定に依存する。
本稿では,物体の動きを記述するために機械学習を利用する3つの異なる手法の比較研究を行う。
論文 参考訳(メタデータ) (2024-10-14T14:18:27Z) - A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - Decoupled DETR For Few-shot Object Detection [4.520231308678286]
サンプル不均衡と弱い特徴伝搬の深刻な問題に対処するためにFSODモデルを改善した。
出力機能としてデコーダ層を動的に融合できる統一デコーダモジュールを構築しました。
提案するモジュールは,微調整とメタラーニングの両方のパラダイムにおいて,5%から10%の安定的な改善を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-20T07:10:39Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - TinyHD: Efficient Video Saliency Prediction with Heterogeneous Decoders
using Hierarchical Maps Distillation [16.04961815178485]
複数の単純ヘテロジニアスデコーダを用いた軽量モデルを提案する。
提案手法は,最先端手法よりも同等かそれ以上の精度で精度を予測できる。
論文 参考訳(メタデータ) (2023-01-11T18:20:19Z) - Learning to Fit Morphable Models [12.469605679847085]
学習最適化の最近の進歩の上に構築し、古典的なレバンス・マルカルトアルゴリズムに触発された更新ルールを提案する。
本稿では,頭部装着装置による3次元体表面推定問題と2次元ランドマークによる顔の嵌合性に対するニューラルネットワークの有効性を示す。
論文 参考訳(メタデータ) (2021-11-29T18:59:53Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。