論文の概要: SCE-MAE: Selective Correspondence Enhancement with Masked Autoencoder for Self-Supervised Landmark Estimation
- arxiv url: http://arxiv.org/abs/2405.18322v1
- Date: Tue, 28 May 2024 16:14:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 17:50:12.382499
- Title: SCE-MAE: Selective Correspondence Enhancement with Masked Autoencoder for Self-Supervised Landmark Estimation
- Title(参考訳): SCE-MAE:自己監督型ランドマーク推定のためのマスクオートエンコーダによる選択対応強化
- Authors: Kejia Yin, Varshanth R. Rao, Ruowei Jiang, Xudong Liu, Parham Aarabi, David B. Lindell,
- Abstract要約: 自己監督的ランドマーク推定は、局所的な特徴表現の形成を要求する困難なタスクである。
本稿では,高価なハイパーカラムではなく,バニラ特徴マップ上で動作するフレームワークであるSCE-MAEを紹介する。
我々は,SCE-MAEが高効率で頑健であり,既存のSOTA法よりも大きなマージンで優れていることを示す。
- 参考スコア(独自算出の注目度): 20.29438820908913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised landmark estimation is a challenging task that demands the formation of locally distinct feature representations to identify sparse facial landmarks in the absence of annotated data. To tackle this task, existing state-of-the-art (SOTA) methods (1) extract coarse features from backbones that are trained with instance-level self-supervised learning (SSL) paradigms, which neglect the dense prediction nature of the task, (2) aggregate them into memory-intensive hypercolumn formations, and (3) supervise lightweight projector networks to naively establish full local correspondences among all pairs of spatial features. In this paper, we introduce SCE-MAE, a framework that (1) leverages the MAE, a region-level SSL method that naturally better suits the landmark prediction task, (2) operates on the vanilla feature map instead of on expensive hypercolumns, and (3) employs a Correspondence Approximation and Refinement Block (CARB) that utilizes a simple density peak clustering algorithm and our proposed Locality-Constrained Repellence Loss to directly hone only select local correspondences. We demonstrate through extensive experiments that SCE-MAE is highly effective and robust, outperforming existing SOTA methods by large margins of approximately 20%-44% on the landmark matching and approximately 9%-15% on the landmark detection tasks.
- Abstract(参考訳): 自己監督型ランドマーク推定は、アノテートされたデータがない場合に、スパースな顔のランドマークを特定するために、局所的な特徴表現の形成を要求する難しいタスクである。
この課題に対処するために,既存のSOTA(State-of-the-art)手法は,(1)タスクの密集した予測特性を無視した,インスタンスレベルの自己教師型学習(SSL)パラダイムで訓練されたバックボーンから粗い特徴を抽出し,(2)メモリ集約型ハイパーカラムに集約し,(3)空間的特徴のすべてに完全な局所的対応性を確立するための軽量プロジェクタネットワークを監督する。
本稿では,(1)領域レベルのSSL方式であるMAEを利用するフレームワークであるSCE-MAEを紹介し,(2)高価なハイパーカラムではなく,バニラ特徴マップ上で動作し,(3)単純な密度ピーククラスタリングアルゴリズムを利用した対応近似・リファインメントブロック(CARB)と,提案した局所性制約型リペランスロスを用いて,ローカルアドレスのみを直接生成する。
我々は,SCE-MAEが極めて有効で堅牢であることを示す広範な実験を通じて,既存のSOTA法よりもランドマークマッチングで約20%-44%,ランドマーク検出タスクで約9%-15%のマージンを達成できた。
関連論文リスト
- Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label [7.400926717561454]
本稿では,弱教師付きオブジェクトローカライゼーションの枠組みについて検討する。
それは、画像と画像レベルのクラスラベルのみを使用して、オブジェクトクラスとその位置を予測できるニューラルネットワークをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2024-04-15T06:02:09Z) - Progressive Feature Self-reinforcement for Weakly Supervised Semantic
Segmentation [55.69128107473125]
Weakly Supervised Semantic (WSSS) のイメージレベルラベルを用いたシングルステージアプローチを提案する。
我々は、画像内容が決定論的領域(例えば、自信ある前景と背景)と不確実領域(例えば、オブジェクト境界と誤分類されたカテゴリ)に適応的に分割して、別々の処理を行う。
そこで我々は,これらの自信のある領域と同一のクラスラベルを持つ拡張画像とのセマンティック一貫性を制約する補完的な自己強調手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:21:52Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Conditioning Covert Geo-Location (CGL) Detection on Semantic Class
Information [5.660207256468971]
サハらによってCCGL(Covert Geo-Location)検出と呼ばれる潜在的な隠蔽物を特定するタスクが提案された。
セマンティッククラス情報を利用する試みは行われなかった。
本稿では,2つの目標を達成するためのマルチタスク学習に基づくアプローチを提案する。i) 意味クラス情報を持つ特徴の抽出;i) 共通エンコーダの堅牢なトレーニング。
論文 参考訳(メタデータ) (2022-11-27T07:21:59Z) - Collaborative Propagation on Multiple Instance Graphs for 3D Instance
Segmentation with Single-point Supervision [63.429704654271475]
本稿では,1つのオブジェクトを1つのポイントでラベル付けするだけでよい,弱教師付き手法RWSegを提案する。
これらの疎いラベルにより、セマンティック情報とインスタンス情報を伝達する2つの分岐を持つ統一的なフレームワークを導入する。
具体的には、異なるインスタンスグラフ間の競合を促進するクロスグラフ競合ランダムウォークス(CRW)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T02:14:39Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Spatial-Scale Aligned Network for Fine-Grained Recognition [42.71878867504503]
精密な視覚認識のための既存のアプローチは、境界領域に基づく表現の学習に重点を置いている。
本稿では,空間スケールアライメントネットワーク(SSANET)を提案する。
論文 参考訳(メタデータ) (2020-01-05T11:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。