論文の概要: Mitigating Knowledge Discrepancies among Multiple Datasets for Task-agnostic Unified Face Alignment
- arxiv url: http://arxiv.org/abs/2503.22359v1
- Date: Fri, 28 Mar 2025 11:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:29:24.602592
- Title: Mitigating Knowledge Discrepancies among Multiple Datasets for Task-agnostic Unified Face Alignment
- Title(参考訳): タスク非依存型顔アライメントのための複数データセット間の知識格差の緩和
- Authors: Jiahao Xia, Min Xu, Wenjian Huang, Jianguo Zhang, Haimin Zhang, Chunxia Xiao,
- Abstract要約: 人間の顔の構造は似ているが、既存の顔アライメント手法では複数のデータセットから統一的な知識を学習することはできない。
本稿では,複数のデータセットから知識を統一する戦略を提案する。
相違の緩和が成功すれば、新しいデータセットへの知識伝達の効率も向上する。
- 参考スコア(独自算出の注目度): 30.501432077729245
- License:
- Abstract: Despite the similar structures of human faces, existing face alignment methods cannot learn unified knowledge from multiple datasets with different landmark annotations. The limited training samples in a single dataset commonly result in fragile robustness in this field. To mitigate knowledge discrepancies among different datasets and train a task-agnostic unified face alignment (TUFA) framework, this paper presents a strategy to unify knowledge from multiple datasets. Specifically, we calculate a mean face shape for each dataset. To explicitly align these mean shapes on an interpretable plane based on their semantics, each shape is then incorporated with a group of semantic alignment embeddings. The 2D coordinates of these aligned shapes can be viewed as the anchors of the plane. By encoding them into structure prompts and further regressing the corresponding facial landmarks using image features, a mapping from the plane to the target faces is finally established, which unifies the learning target of different datasets. Consequently, multiple datasets can be utilized to boost the generalization ability of the model. The successful mitigation of discrepancies also enhances the efficiency of knowledge transferring to a novel dataset, significantly boosts the performance of few-shot face alignment. Additionally, the interpretable plane endows TUFA with a task-agnostic characteristic, enabling it to locate landmarks unseen during training in a zero-shot manner. Extensive experiments are carried on seven benchmarks and the results demonstrate an impressive improvement in face alignment brought by knowledge discrepancies mitigation.
- Abstract(参考訳): 人間の顔の構造は似ているが、既存の顔アライメント手法では、異なるランドマークアノテーションを持つ複数のデータセットから統一された知識を学習することはできない。
単一のデータセットの限られたトレーニングサンプルは、一般的にこの分野で脆弱な堅牢性をもたらす。
本稿では,異なるデータセット間の知識格差を緩和し,タスクに依存しない統合顔アライメント(TUFA)フレームワークを訓練するために,複数のデータセットから知識を統一する戦略を提案する。
具体的には,各データセットの平均顔形状を算出する。
これらの平均形状を意味論に基づいて解釈可能な平面上に明示的に整列させるために、各形状を意味的アライメントの組込み群に組み込む。
これらの整列形状の2次元座標は、平面のアンカーと見なすことができる。
これらを構造的プロンプトに符号化し、画像特徴を用いて対応する顔のランドマークを退避させることにより、平面から対象の顔へのマッピングが最終的に確立され、異なるデータセットの学習目標が統一される。
これにより、モデルの一般化能力を高めるために複数のデータセットを利用することができる。
相違の緩和が成功すれば、新しいデータセットへの知識伝達の効率が向上し、数発の顔アライメントの性能が大幅に向上する。
さらに、解釈可能な平面はTUFAにタスクに依存しない特性を付与し、訓練中に見えないランドマークをゼロショットで見つけることができる。
大規模な実験は7つのベンチマークで行われ、その結果は知識の相違による顔のアライメントが著しく改善されたことを示している。
関連論文リスト
- An evaluation of Deep Learning based stereo dense matching dataset shift
from aerial images and a large scale stereo dataset [2.048226951354646]
そこで本研究では,光検出・ランドング(LiDAR)と画像から直接地中不均質マップを生成する手法を提案する。
多様なシーンタイプ、画像解像度、幾何学的構成を持つデータセット間の11の密マッチング手法を評価した。
論文 参考訳(メタデータ) (2024-02-19T20:33:46Z) - Neural Semantic Surface Maps [52.61017226479506]
本稿では,2つの属とゼロの形状の地図を自動計算する手法を提案する。
提案手法は,手動のアノテーションや3Dトレーニングデータ要求を排除し,意味的表面-表面マップを生成する。
論文 参考訳(メタデータ) (2023-09-09T16:21:56Z) - FaceFusion: Exploiting Full Spectrum of Multiple Datasets [4.438240667468304]
我々はFaceFusionという新しいトレーニング手法を提案する。
ビューを使用して埋め込みネットワークを同時にトレーニングしながら、アイデンティティの衝突によって達成されない、さまざまなデータセットの融合ビューを生成する。
統合データセットの統一ビューを使用することで、組み込みネットワークはデータセットのスペクトル全体に対してトレーニングされ、顕著なパフォーマンス向上につながる。
論文 参考訳(メタデータ) (2023-05-24T00:51:04Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - Scalable Self-Supervised Representation Learning from Spatiotemporal
Motion Trajectories for Multimodal Computer Vision [0.0]
本稿では,GPSトラジェクトリから地理的位置の表現を学習するための自己教師付きラベルなし手法を提案する。
到達可能性埋め込みは意味論的に意味のある表現であり,精度・リコール曲線(AUPRC)測定値の領域を用いて測定すると,性能が4~23%向上することを示す。
論文 参考訳(メタデータ) (2022-10-07T02:41:02Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Bending Graphs: Hierarchical Shape Matching using Gated Optimal
Transport [80.64516377977183]
形状マッチングは、コンピュータグラフィックスと視覚のコミュニティにとって長い間研究されてきた問題である。
局所的なパッチレベル情報とグローバルな形状レベルの構造を組み込んだ階層型学習設計について検討する。
本研究では,非信頼ノード上の特徴を逐次更新し,形状間の一貫した一致を学習することで,新しい最適輸送解法を提案する。
論文 参考訳(メタデータ) (2022-02-03T11:41:46Z) - Reachability Embeddings: Scalable Self-Supervised Representation
Learning from Markovian Trajectories for Geospatial Computer Vision [0.0]
ラベルのないGPSトラジェクトリから地理的位置の表現を学習するための自己教師付き手法を提案する。
スケーラブルで分散されたアルゴリズムは、リーチビリティ・サマリーと呼ばれるイメージライクな表現を計算するために提示される。
到達可能性埋め込みは意味的に意味のある表現であり、結果として性能が4~23%向上することを示す。
論文 参考訳(メタデータ) (2021-10-24T20:10:22Z) - DAIL: Dataset-Aware and Invariant Learning for Face Recognition [67.4903809903022]
顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。
2つの大きな問題のために異なるデータセットを自然に組み合わせるのは問題で面倒です。
トレーニング中に異なるデータセットの異なるクラスと同じ人を扱うことは、バックプロパゲーションに影響します。
手動でラベルをクリーニングするには 人的努力が要る 特に何百万もの画像と何千ものIDがある時は
論文 参考訳(メタデータ) (2021-01-14T01:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。