論文の概要: Multi-Domain Multi-Definition Landmark Localization for Small Datasets
- arxiv url: http://arxiv.org/abs/2203.10358v1
- Date: Sat, 19 Mar 2022 17:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 16:55:02.369621
- Title: Multi-Domain Multi-Definition Landmark Localization for Small Datasets
- Title(参考訳): 小型データセットのためのマルチドメインマルチディフィニションランドマーク位置決め
- Authors: David Ferman and Gaurav Bharaj
- Abstract要約: 本稿では,小さなデータセットの顔位置推定のための,マルチ画像領域とマルチランドマーク定義学習のための新しい手法を提案する。
本稿では,前もって構造化された共有ランドマークセマンティックグループを持つ新規デコーダを用いたビジョントランスフォーマーエンコーダを提案する。
動物,似顔絵,顔絵などの様々な画像領域の小さなデータセットに対して,最先端の性能を示す。
- 参考スコア(独自算出の注目度): 1.2691047660244332
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a novel method for multi image domain and multi-landmark
definition learning for small dataset facial localization. Training a small
dataset alongside a large(r) dataset helps with robust learning for the former,
and provides a universal mechanism for facial landmark localization for new
and/or smaller standard datasets. To this end, we propose a Vision Transformer
encoder with a novel decoder with a definition agnostic shared landmark
semantic group structured prior, that is learnt, as we train on more than one
dataset concurrently. Due to our novel definition agnostic group prior the
datasets may vary in landmark definitions and domains. During the decoder stage
we use cross- and self-attention, whose output is later fed into
domain/definition specific heads that minimize a Laplacian-log-likelihood loss.
We achieve state-of-the-art performance on standard landmark localization
datasets such as COFW and WFLW, when trained with a bigger dataset. We also
show state-of-the-art performance on several varied image domain small datasets
for animals, caricatures, and facial portrait paintings. Further, we contribute
a small dataset (150 images) of pareidolias to show efficacy of our method.
Finally, we provide several analysis and ablation studies to justify our
claims.
- Abstract(参考訳): 本稿では,小データセットの顔位置推定のためのマルチ画像領域とマルチランドマーク定義学習法を提案する。
大規模な(r)データセットと一緒に小さなデータセットをトレーニングすることは、前者の堅牢な学習を支援すると同時に、新しいおよび/またはより小さな標準データセットの顔ランドマークローカライゼーションのための普遍的なメカニズムを提供する。
そこで本研究では,複数のデータセットを同時にトレーニングすることにより,事前に構造化された共有ランドマーク型セマンティックグループの定義に依存しない,新しいデコーダを備えたビジョントランスフォーマーエンコーダを提案する。
我々の新しい定義により、データセットはランドマークの定義やドメインによって異なるかもしれない。
デコーダの段階では、クロスアテンションと自己アテンションを使用し、その出力は後にドメイン/定義固有のヘッドに供給され、ラプラシアンログのような損失を最小限にする。
我々は、より大きなデータセットでトレーニングした場合、COFWやWFLWといった標準的なランドマークローカライゼーションデータセットで最先端のパフォーマンスを達成する。
また,動物,似顔絵,顔絵などの様々な画像領域の小さなデータセットに対して,最先端の性能を示す。
また,本手法の有効性を示すため,小パレイドリアのデータセット(150画像)を寄贈した。
最後に、我々の主張を正当化するために、いくつかの分析およびアブレーション研究を行う。
関連論文リスト
- Is in-domain data beneficial in transfer learning for landmarks
detection in x-ray images? [1.5348047288817481]
本研究では,大規模な自然画像データセットのみに事前学習したモデルに対して,小さな領域内X線画像データセットを使用することで,ランドマーク検出の精度が向上するかどうかを検討する。
我々の結果は、ドメイン内ソースデータセットを使用することで、ImageNetのドメイン外事前トレーニングに関して、限界があるか、まったく利益が得られないことを示している。
以上の結果から,大規模なアノテートデータセットが得られない場合の医用画像におけるロバストなランドマーク検出システムの開発が示唆された。
論文 参考訳(メタデータ) (2024-03-03T10:35:00Z) - Towards Multi-domain Face Landmark Detection with Synthetic Data from
Diffusion model [27.307563102526192]
深層学習に基づく眼球内顔の顔のランドマーク検出は、大幅な改善が達成された。
他の領域(漫画、似顔絵など)では、顔のランドマーク検出にはまだ課題がある。
限られたデータセットと事前学習拡散モデルを効果的に活用する2段階のトレーニング手法を設計する。
提案手法は,マルチドメイン顔ランドマーク検出における既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-01-24T02:35:32Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Unsupervised Domain Adaptation for Medical Image Segmentation via
Feature-space Density Matching [0.0]
本稿ではセマンティックセグメンテーションのための教師なしドメイン適応手法を提案する。
対象データ分布を特徴空間のソースとマッチングする。
提案手法の有効性を2つのデータセット,多部位前立腺MRI,病理組織像に示す。
論文 参考訳(メタデータ) (2023-05-09T22:24:46Z) - Unsupervised Domain Adaptation with Histogram-gated Image Translation
for Delayered IC Image Analysis [2.720699926154399]
Histogram-gated Image Translation (HGIT)は、特定のソースデータセットからターゲットデータセットのドメインに変換する、教師なしのドメイン適応フレームワークである。
提案手法は,報告したドメイン適応手法と比較して最高の性能を達成し,完全教師付きベンチマークに適当に近い。
論文 参考訳(メタデータ) (2022-09-27T15:53:22Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Multi-dataset Pretraining: A Unified Model for Semantic Segmentation [97.61605021985062]
我々は、異なるデータセットの断片化アノテーションを最大限に活用するために、マルチデータセット事前訓練と呼ばれる統合フレームワークを提案する。
これは、複数のデータセットに対して提案されたピクセルからプロトタイプへのコントラスト損失を通じてネットワークを事前トレーニングすることで実現される。
異なるデータセットからの画像とクラス間の関係をより良くモデル化するために、クロスデータセットの混合によりピクセルレベルの埋め込みを拡張する。
論文 参考訳(メタデータ) (2021-06-08T06:13:11Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Domain Adaptation on Semantic Segmentation for Aerial Images [3.946367634483361]
セマンティックイメージセグメンテーションにおける領域シフトに対処する、新しい教師なしドメイン適応フレームワークを提案する。
また、ターゲット領域にエントロピー最小化を適用し、高信頼な予測を生成する。
様々な指標を用いて最先端手法の改善を示す。
論文 参考訳(メタデータ) (2020-12-03T20:58:27Z) - DoFE: Domain-oriented Feature Embedding for Generalizable Fundus Image
Segmentation on Unseen Datasets [96.92018649136217]
対象ドメインに対するCNNの一般化能力を向上させるために,新しいドメイン指向特徴埋め込み(DoFE)フレームワークを提案する。
私たちのDoFEフレームワークは、マルチソースドメインから学んだ追加のドメイン事前知識で、画像機能を動的に強化します。
本フレームワークは、未確認データセットのセグメンテーション結果を満足して生成し、他の領域の一般化やネットワークの正規化手法を超越する。
論文 参考訳(メタデータ) (2020-10-13T07:28:39Z) - Spatial Attention Pyramid Network for Unsupervised Domain Adaptation [66.75008386980869]
教師なし領域適応は様々なコンピュータビジョンタスクにおいて重要である。
教師なし領域適応のための新しい空間注意ピラミッドネットワークを設計する。
我々の手法は最先端の手法に対して大きなマージンで好適に機能する。
論文 参考訳(メタデータ) (2020-03-29T09:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。