論文の概要: ReDirTrans: Latent-to-Latent Translation for Gaze and Head Redirection
- arxiv url: http://arxiv.org/abs/2305.11452v1
- Date: Fri, 19 May 2023 06:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 16:02:31.371410
- Title: ReDirTrans: Latent-to-Latent Translation for Gaze and Head Redirection
- Title(参考訳): ReDirTrans: Gaze と Head Redirection の潜時翻訳
- Authors: Shiwei Jin, Zhen Wang, Lei Wang, Ning Bi, Truong Nguyen
- Abstract要約: 学習に基づく視線推定法は、正確な視線アノテーションを用いた大量の訓練データを必要とする。
本稿では,視線方向のリダイレクトを行うために,ReDirTransと呼ばれる携帯型ネットワークを提案する。
また、データセット拡張としてリダイレクトされたサンプルを用いて、下流学習に基づく視線推定タスクの改善を提案する。
- 参考スコア(独自算出の注目度): 12.474515318770237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based gaze estimation methods require large amounts of training data
with accurate gaze annotations. Facing such demanding requirements of gaze data
collection and annotation, several image synthesis methods were proposed, which
successfully redirected gaze directions precisely given the assigned
conditions. However, these methods focused on changing gaze directions of the
images that only include eyes or restricted ranges of faces with low resolution
(less than $128\times128$) to largely reduce interference from other attributes
such as hairs, which limits application scenarios. To cope with this
limitation, we proposed a portable network, called ReDirTrans, achieving
latent-to-latent translation for redirecting gaze directions and head
orientations in an interpretable manner. ReDirTrans projects input latent
vectors into aimed-attribute embeddings only and redirects these embeddings
with assigned pitch and yaw values. Then both the initial and edited embeddings
are projected back (deprojected) to the initial latent space as residuals to
modify the input latent vectors by subtraction and addition, representing old
status removal and new status addition. The projection of aimed attributes only
and subtraction-addition operations for status replacement essentially mitigate
impacts on other attributes and the distribution of latent vectors. Thus, by
combining ReDirTrans with a pretrained fixed e4e-StyleGAN pair, we created
ReDirTrans-GAN, which enables accurately redirecting gaze in full-face images
with $1024\times1024$ resolution while preserving other attributes such as
identity, expression, and hairstyle. Furthermore, we presented improvements for
the downstream learning-based gaze estimation task, using redirected samples as
dataset augmentation.
- Abstract(参考訳): 学習に基づく視線推定法は、正確な視線アノテーションを用いた大量の訓練データを必要とする。
このような視線データ収集と注記の要求に対して,複数の画像合成手法が提案され,与えられた条件により視線方向を高精度にリダイレクトすることに成功した。
しかし、これらの手法は、被写体の視線方向を変えることに焦点を当てており、例えばヘアなどの他の属性からの干渉を減らすために、解像度が低く(128\times 128$以下)、用途シナリオを制限する。
この制限に対処するため,我々は,視線方向と頭部方向を解釈可能な方法でリダイレクトするための潜在翻訳を実現する,redertransと呼ばれる携帯ネットワークを提案した。
redirtransプロジェクトは、潜在ベクトルをターゲティング-属性埋め込みに入力し、これらの埋め込みを割り当てられたピッチとyaw値でリダイレクトする。
次に、初期および編集された埋め込みを初期潜伏空間に投影し(デジェクト)、入力潜伏ベクトルを減算と加算によって修正し、古い状態除去と新しい状態付加を表す。
目的属性のみの投影と状態置換のための減算付加操作は、本質的に他の属性に対する影響と潜在ベクトルの分布を緩和する。
そこで,プリトレーニングされたe4e-styleganペアとredirtransを組み合わせることで,同一性,表現性,髪型などの他の属性を保ちながら,フルフェイス画像中の視線を正確に1024\times1024$解像度でリダイレクトできるredirtrans-ganを開発した。
さらに,リダイレクトサンプルをデータセット拡張として,下流学習に基づく視線推定タスクの改善も行った。
関連論文リスト
- Adaptive Nonlinear Latent Transformation for Conditional Face Editing [40.32385363670918]
本稿では,AdaTrans と呼ばれる不整合および条件付き顔編集のための適応型非線形潜時変換を提案する。
AdaTransは、操作プロセスをいくつかの細かいステップに分割する。つまり、各ステップの方向と大きさは、顔属性と潜伏符号の両方で条件付けられる。
AdaTransは、切り離し、非バイナリ属性による柔軟性、高忠実さの利点により、制御可能な顔編集を可能にする。
論文 参考訳(メタデータ) (2023-07-15T12:36:50Z) - LatentGaze: Cross-Domain Gaze Estimation through Gaze-Aware Analytic
Latent Code Manipulation [0.0]
本稿では,データ駆動型手法を応用した視線認識型解析操作手法を提案する。
GANベースのエンコーダジェネレータプロセスを利用することで、入力画像がターゲット領域からソース領域イメージにシフトし、視線推定器が十分に認識できる。
論文 参考訳(メタデータ) (2022-09-21T08:05:53Z) - Towards Self-Supervised Gaze Estimation [32.91601919228028]
オンラインクラスタリングに基づく自己教師型アプローチSwAVの同種版SwATを提案する。
既存のベンチマークで、クロスデータセットおよびデータセット内評価タスクを最大57%、25%改善しました。
論文 参考訳(メタデータ) (2022-03-21T13:35:16Z) - CUDA-GR: Controllable Unsupervised Domain Adaptation for Gaze
Redirection [3.0141238193080295]
視線リダイレクトの目的は、画像中の視線を所望の方向に向けて操作することである。
生成的対向ネットワークの進歩は、フォトリアリスティック画像の生成において優れた結果を示している。
このような微調整の制御を可能にするためには、非常に高価なトレーニングデータに対して、基礎となる真理アノテーションを得る必要がある。
論文 参考訳(メタデータ) (2021-06-21T04:39:42Z) - Do Generative Models Know Disentanglement? Contrastive Learning is All
You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。
DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文 参考訳(メタデータ) (2021-02-21T08:01:20Z) - Weakly-Supervised Cross-Domain Adaptation for Endoscopic Lesions
Segmentation [79.58311369297635]
異なるデータセットにまたがるトランスファー可能なドメイン不変知識を探索できる,新しい弱い教師付き病巣移動フレームワークを提案する。
wasserstein quantified transferability frameworkは、広い範囲の転送可能なコンテキスト依存性を強調するために開発されている。
新規な自己監督型擬似ラベル生成器は、送信困難かつ転送容易なターゲットサンプルの両方に対して、確実な擬似ピクセルラベルを等しく提供するように設計されている。
論文 参考訳(メタデータ) (2020-12-08T02:26:03Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Self-Learning Transformations for Improving Gaze and Head Redirection [49.61091281780071]
視線や頭部方向の角度をきめ細かな制御で高品質な画像を生成できる新しい顔画像生成モデルを提案する。
これは、視線やヘッドオリエンテーション、照明、色合いなど、多くの外見上の要因を解消する必要がある。
タスク非関連要因の明示的解消は、視線と頭部の向きのより正確なモデリングをもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-23T11:18:37Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Coarse-to-Fine Gaze Redirection with Numerical and Pictorial Guidance [74.27389895574422]
本稿では,数値誘導と画像誘導の両方を利用した新しい視線リダイレクトフレームワークを提案する。
提案手法は,画像品質とリダイレクト精度の両方の観点から,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-04-07T01:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。