論文の概要: Semantic Style Transfer for Enhancing Animal Facial Landmark Detection
- arxiv url: http://arxiv.org/abs/2505.05640v1
- Date: Thu, 08 May 2025 20:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.080354
- Title: Semantic Style Transfer for Enhancing Animal Facial Landmark Detection
- Title(参考訳): 動物顔のランドマーク検出を支援するセマンティック・スタイル・トランスファー
- Authors: Anadil Hussein, Anna Zamansky, George Martvel,
- Abstract要約: スタイル転送は、構造的内容を保持しながら、ある画像の視覚的特徴を別の画像に適用する技法である。
本研究は,動物顔のランドマーク検出訓練の強化にこの技術を用いることを検討した。
フルボディ画像ではなく、トリミングされた顔画像へのスタイル転送を適用することで、構造的一貫性が向上する。
Supervised Style Transfer (SST) - ランドマーク精度に基づいてスタイルソースを選択するもので、ベースライン精度の98%を維持している。
- 参考スコア(独自算出の注目度): 0.3186130813218338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural Style Transfer (NST) is a technique for applying the visual characteristics of one image onto another while preserving structural content. Traditionally used for artistic transformations, NST has recently been adapted, e.g., for domain adaptation and data augmentation. This study investigates the use of this technique for enhancing animal facial landmark detectors training. As a case study, we use a recently introduced Ensemble Landmark Detector for 48 anatomical cat facial landmarks and the CatFLW dataset it was trained on, making three main contributions. First, we demonstrate that applying style transfer to cropped facial images rather than full-body images enhances structural consistency, improving the quality of generated images. Secondly, replacing training images with style-transferred versions raised challenges of annotation misalignment, but Supervised Style Transfer (SST) - which selects style sources based on landmark accuracy - retained up to 98% of baseline accuracy. Finally, augmenting the dataset with style-transferred images further improved robustness, outperforming traditional augmentation methods. These findings establish semantic style transfer as an effective augmentation strategy for enhancing the performance of facial landmark detection models for animals and beyond. While this study focuses on cat facial landmarks, the proposed method can be generalized to other species and landmark detection models.
- Abstract(参考訳): ニューラルスタイル転送(Neural Style Transfer, NST)は、ある画像の視覚的特徴を別の画像に適用し、構造的内容を保存する技術である。
伝統的に芸術的変換に用いられてきたNSTは、ドメイン適応とデータ拡張のために最近適応された。
本研究は,動物顔のランドマーク検出訓練の強化にこの技術を用いることを検討した。
ケーススタディでは、48匹の解剖学的ネコの顔のランドマークと、トレーニングしたCatFLWデータセットに、最近導入されたEnsemble Landmark Detectorを使用し、3つの主要な貢献をした。
まず、フルボディ画像ではなく、トリミングされた顔画像にスタイル転送を適用すると、構造的一貫性が向上し、生成画像の品質が向上することを示す。
第二に、トレーニングイメージをスタイル変換バージョンに置き換えることで、アノテーションのミスアライメントの課題が持ち上がったが、ランドマーク精度に基づいてスタイルソースを選択するSupervised Style Transfer (SST)は、ベースライン精度の最大98%を維持した。
最後に、スタイル変換された画像によるデータセットの増大により、ロバスト性はさらに向上し、従来の拡張方法よりも優れていた。
これらの知見は,動物等の顔のランドマーク検出モデルの性能を高めるための効果的な拡張戦略として,意味的スタイルの伝達を確立した。
本研究は猫の顔のランドマークに焦点をあてるが、提案手法は他の種やランドマーク検出モデルに一般化することができる。
関連論文リスト
- Optimal-Landmark-Guided Image Blending for Face Morphing Attacks [8.024953195407502]
本稿では,最適なランドマーク誘導画像ブレンディングを用いた顔形態形成攻撃を行うための新しい手法を提案する。
提案手法は, ランドマークの最適化とグラフ畳み込みネットワーク(GCN)によるランドマークと外観特徴の組み合わせにより, 従来のアプローチの限界を克服する。
論文 参考訳(メタデータ) (2024-01-30T03:45:06Z) - DIFF-NST: Diffusion Interleaving For deFormable Neural Style Transfer [27.39248034592382]
変形可能なスタイル転送を実現しつつ,新しいモデルのクラスを用いてスタイル転送を行う。
これらのモデルの先行モデルを活用することで、推論時に新たな芸術的コントロールが公開できることを示す。
論文 参考訳(メタデータ) (2023-07-09T12:13:43Z) - MorphGANFormer: Transformer-based Face Morphing and De-Morphing [55.211984079735196]
顔変形に対するスタイルGANベースのアプローチが主要な技術である。
本稿では,顔の変形に対する変換器ベースの代替手段を提案し,その利点をStyleGANベースの方法と比較した。
論文 参考訳(メタデータ) (2023-02-18T19:09:11Z) - Fine-Grained Image Style Transfer with Visual Transformers [59.85619519384446]
本稿では,コンテンツとスタイルイメージの両方を視覚トークンに分割し,よりきめ細かなスタイル変換を実現するSTTR(Style TRansformer)ネットワークを提案する。
STTRと既存のアプローチを比較するために,Amazon Mechanical Turkのユーザスタディを実施している。
論文 参考訳(メタデータ) (2022-10-11T06:26:00Z) - Towards Fine-grained Image Classification with Generative Adversarial
Networks and Facial Landmark Detection [0.0]
GANベースのデータ拡張を使用して、余分なデータセットインスタンスを生成します。
近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。
論文 参考訳(メタデータ) (2021-08-28T06:32:42Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Learning domain-agnostic visual representation for computational
pathology using medically-irrelevant style transfer augmentation [4.538771844947821]
STRAP(Style TRansfer Augmentation for histoPathology)は、芸術絵画からのランダムなスタイル移行に基づくデータ拡張の一形態である。
スタイル転送は、画像の低レベルのテクスチャ内容をランダムに選択された芸術絵画の非形式的なスタイルに置き換える。
STRAPが最先端のパフォーマンス、特にドメインシフトの存在につながることを実証する。
論文 参考訳(メタデータ) (2021-02-02T18:50:16Z) - Combining Deep Learning with Geometric Features for Image based
Localization in the Gastrointestinal Tract [8.510792628268824]
そこで本研究では,Deep Learning法と従来の特徴量に基づく手法を併用して,小さなトレーニングデータを用いたより優れたローカライゼーションを実現する手法を提案する。
本手法は, セグメンテッドトレーニング画像セットにおいて, 最寄りのゾーンに数発の分類を行うために, シームズネットワーク構造を導入することにより, 両世界の長所をフル活用する。
精度は28.94% (Position) と10.97% (Orientation) で改善されている。
論文 参考訳(メタデータ) (2020-05-11T23:04:00Z) - Transferring Dense Pose to Proximal Animal Classes [83.84439508978126]
より一般的な対象検出器やセグメンタなどと同様に、密集したポーズ認識に存在する知識を、他のクラスにおける密集したポーズ認識の問題に移すことが可能であることを示す。
我々は、人間と幾何学的に整合した新しい動物のためのDensePoseモデルを確立することでこれを行う。
また、クラスチンパンジーにDensePoseの方法でラベル付けされた2つのベンチマークデータセットを導入し、アプローチを評価するためにそれらを使用します。
論文 参考訳(メタデータ) (2020-02-28T21:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。