論文の概要: Dual In-painting Model for Unsupervised Gaze Correction and Animation in
the Wild
- arxiv url: http://arxiv.org/abs/2008.03834v1
- Date: Sun, 9 Aug 2020 23:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 04:52:57.800068
- Title: Dual In-painting Model for Unsupervised Gaze Correction and Animation in
the Wild
- Title(参考訳): 野生における教師なし迷路補正とアニメーションのためのデュアルインペイントモデル
- Authors: Jichao Zhang, Jingjing Chen, Hao Tang, Wei Wang, Yan Yan, Enver
Sangineto, Nicu Sebe
- Abstract要約: 視線角度と頭部ポーズの正確なアノテーションを必要とせずに機能する解を提案する。
我々の手法は3つの新しいモジュールからなる: Gaze Correction Module (GCM)、 Gaze Animation Module (GAM)、 Pretrained Autoencoder Module (PAM)。
- 参考スコア(独自算出の注目度): 82.42401132933462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we address the problem of unsupervised gaze correction in the
wild, presenting a solution that works without the need for precise annotations
of the gaze angle and the head pose. We have created a new dataset called
CelebAGaze, which consists of two domains X, Y, where the eyes are either
staring at the camera or somewhere else. Our method consists of three novel
modules: the Gaze Correction module (GCM), the Gaze Animation module (GAM), and
the Pretrained Autoencoder module (PAM). Specifically, GCM and GAM separately
train a dual in-painting network using data from the domain $X$ for gaze
correction and data from the domain $Y$ for gaze animation. Additionally, a
Synthesis-As-Training method is proposed when training GAM to encourage the
features encoded from the eye region to be correlated with the angle
information, resulting in a gaze animation which can be achieved by
interpolation in the latent space. To further preserve the identity
information~(e.g., eye shape, iris color), we propose the PAM with an
Autoencoder, which is based on Self-Supervised mirror learning where the
bottleneck features are angle-invariant and which works as an extra input to
the dual in-painting models. Extensive experiments validate the effectiveness
of the proposed method for gaze correction and gaze animation in the wild and
demonstrate the superiority of our approach in producing more compelling
results than state-of-the-art baselines. Our code, the pretrained models and
the supplementary material are available at:
https://github.com/zhangqianhui/GazeAnimation.
- Abstract(参考訳): 本稿では,野生における無監督視線補正の問題に対処し,視線角と頭部姿勢の正確な注釈を必要とせず,有効な解決法を提案する。
私たちはCelebAGazeという新しいデータセットを作成しました。このデータセットは2つのドメイン X, Y で構成されています。
本手法は,Gaze Correction Module (GCM), Gaze Animation Module (GAM), Pretrained Autoencoder Module (PAM)の3つの新しいモジュールから構成される。
具体的には、GCMとGAMは、視線補正のためのドメイン$X$のデータと、視線アニメーションのためのドメイン$Y$のデータを使用して、デュアル塗装ネットワークを別々に訓練する。
また、GAMのトレーニングにおいて、眼領域から符号化された特徴と角度情報との相関を助長し、潜伏空間の補間によって実現可能な視線アニメーションを実現するための合成-アスレーニング法を提案する。
アイリス色など)の識別情報をさらに保存するために,自己監督ミラー学習に基づくオートエンコーダを用いたPAMを提案し,そのボトルネック特徴が角度不変であり,デュアルインペイントモデルへの追加入力として機能する。
広汎な実験により,提案手法の有効性を検証し,本手法が最先端のベースラインよりも説得力のある結果を得る上での優位性を実証した。
私たちのコード、事前訓練されたモデル、補足資料は、https://github.com/zhangqianhui/GazeAnimation.comで公開されています。
関連論文リスト
- Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。
我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。
我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文 参考訳(メタデータ) (2023-08-21T01:59:45Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - K-Order Graph-oriented Transformer with GraAttention for 3D Pose and
Shape Estimation [20.711789781518753]
KOG-Transformer というグラフ構造データに対する2次元から3次元のポーズ推定ネットワークを提案する。
また,GASE-Netという手動データのための3次元ポーズ・ツー・シェイプ推定ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-24T06:54:03Z) - Unsupervised High-Resolution Portrait Gaze Correction and Animation [81.19271523855554]
本稿では,高解像度で非拘束なポートレート画像に対する視線補正とアニメーション手法を提案する。
まず、CelebGazeと高解像度のCelebHQGazeという2つの新しいポートレートデータセットを作成します。
本稿では,ガゼ補正モジュールとガゼアニメーションモジュールを用いて,画像の描画問題として視線補正タスクを定式化する。
論文 参考訳(メタデータ) (2022-07-01T08:14:42Z) - L2CS-Net: Fine-Grained Gaze Estimation in Unconstrained Environments [2.5234156040689237]
制約のない環境での視線予測のための頑健なCNNモデルを提案する。
我々は、ネットワーク学習を改善し、一般化を高めるために、各角度に2つの同一の損失を用いる。
提案モデルでは,MPIIGazeデータセットとGaze360データセットを用いて3.92degと10.41degの最先端精度を実現する。
論文 参考訳(メタデータ) (2022-03-07T12:35:39Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。