論文の概要: Heatmap Regression without Soft-Argmax for Facial Landmark Detection
- arxiv url: http://arxiv.org/abs/2508.14929v1
- Date: Tue, 19 Aug 2025 18:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.02826
- Title: Heatmap Regression without Soft-Argmax for Facial Landmark Detection
- Title(参考訳): ソフトアーチマックスを含まないヒートマップ回帰による顔のランドマーク検出
- Authors: Chiao-An Yang, Raymond A. Yeh,
- Abstract要約: 熱マップ回帰に基づく手法は、この課題における最先端の結果を達成するために広く用いられている。
argmax は微分できないため、これらの手法は微分可能な近似である Soft-argmax を用いてディープネット上でエンドツーエンドのトレーニングを可能にする。
本研究では、Soft-argmaxの使用という長年にわたる選択を再考し、強力なパフォーマンスを達成するための唯一の方法ではないことを実証する。
- 参考スコア(独自算出の注目度): 13.71532690626279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facial landmark detection is an important task in computer vision with numerous applications, such as head pose estimation, expression analysis, face swapping, etc. Heatmap regression-based methods have been widely used to achieve state-of-the-art results in this task. These methods involve computing the argmax over the heatmaps to predict a landmark. Since argmax is not differentiable, these methods use a differentiable approximation, Soft-argmax, to enable end-to-end training on deep-nets. In this work, we revisit this long-standing choice of using Soft-argmax and demonstrate that it is not the only way to achieve strong performance. Instead, we propose an alternative training objective based on the classic structured prediction framework. Empirically, our method achieves state-of-the-art performance on three facial landmark benchmarks (WFLW, COFW, and 300W), converging 2.2x faster during training while maintaining better/competitive accuracy. Our code is available here: https://github.com/ca-joe-yang/regression-without-softarg.
- Abstract(参考訳): 顔のランドマーク検出は、頭部ポーズ推定、表情解析、顔のスワップなど、多数の応用でコンピュータビジョンにおいて重要なタスクである。
熱マップ回帰に基づく手法は、この課題における最先端の結果を達成するために広く用いられている。
これらの手法は、ランドマークを予測するために、熱マップ上でargmaxを計算することを含む。
argmax は微分できないため、これらの手法は微分可能な近似である Soft-argmax を用いてディープネット上でエンドツーエンドのトレーニングを可能にする。
本研究では、Soft-argmaxの使用という長年にわたる選択を再考し、強力なパフォーマンスを達成するための唯一の方法ではないことを実証する。
そこで本研究では,従来の構造化予測フレームワークに基づく学習目標を提案する。
提案手法は,3つの顔ランドマークベンチマーク(WFLW,COFW,300W)における最先端性能を実証的に達成し,トレーニング中の2.2倍の速度で収束し,良好な/競争的精度を維持した。
私たちのコードは、https://github.com/ca-joe-yang/regression-without-softarg.comで利用可能です。
関連論文リスト
- SphereFace2: Binary Classification is All You Need for Deep Face
Recognition [57.07058009281208]
最先端のディープフェイス認識手法は、ソフトマックスベースのマルチクラス分類フレームワークで主に訓練されている。
本稿では,SphereFace2と呼ばれる新しいバイナリ分類学習フレームワークを提案する。
SphereFace2は、最先端のディープ・フェイス認識手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-08-03T13:58:45Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Direct-Search for a Class of Stochastic Min-Max Problems [0.0]
オラクルを通してのみ対象物にアクセスする導関数探索法について検討する。
この手法の収束性は軽微な仮定で証明する。
私達の分析は設定のminmax目的のための直接調査方法の収束に取り組む最初のものです。
論文 参考訳(メタデータ) (2021-02-22T22:23:58Z) - Partial FC: Training 10 Million Identities on a Single Machine [23.7030637489807]
ソフトマックスに基づく損失関数の最適化目標と大規模IDの訓練の難しさを分析した。
実験では、ソフトマックスに基づく損失関数に対して10%のランダムサンプリングクラスしか持たないトレーニングでは、精度の低下は示さない。
また、モデル精度とトレーニング効率を考慮した、非常に効率的な分散サンプリングアルゴリズムを実装した。
論文 参考訳(メタデータ) (2020-10-11T11:15:26Z) - Balanced Meta-Softmax for Long-Tailed Visual Recognition [46.215759445665434]
ソフトマックス関数は、ほとんどの分類タスクで使用されるが、長い尾の配置の下で偏りのある勾配推定を与えることを示す。
本稿では,Softmax のエレガントな非バイアス拡張である Balanced Softmax を提案する。
実験では,Quaird Meta-Softmaxが視覚認識とインスタンスセグメンテーションの両タスクにおいて,最先端の長期分類ソリューションより優れていることを示した。
論文 参考訳(メタデータ) (2020-07-21T12:05:00Z) - Graph-PCNN: Two Stage Human Pose Estimation with Graph Pose Refinement [54.29252286561449]
グラフPCNNと呼ばれる2段階のグラフベースおよびモデルに依存しないフレームワークを提案する。
第1段階では、粗局化結果を得るために熱マップ回帰ネットワークを適用し、ガイドポイントと呼ばれる一連の提案キーポイントをサンプリングする。
第2段階では、各案内点について、ローカライゼーションにより異なる視覚特徴を抽出する。
ガイドされた点間の関係は、より正確なローカライゼーション結果を得るためにグラフポーズ精製モジュールによって探索される。
論文 参考訳(メタデータ) (2020-07-21T04:59:15Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Pixel-in-Pixel Net: Towards Efficient Facial Landmark Detection in the
Wild [104.61677518999976]
顔のランドマークを検出するために,Pixel-in-Pixel Net(PIPNet)を提案する。
提案モデルは,熱マップ回帰に基づく新しい検出ヘッドを備える。
PIPNetのクロスドメイン一般化能力をさらに向上するため,カリキュラムによる自己学習を提案する。
論文 参考訳(メタデータ) (2020-03-08T12:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。