論文の概要: EyeBAG: Accurate Control of Eye Blink and Gaze Based on Data
Augmentation Leveraging Style Mixing
- arxiv url: http://arxiv.org/abs/2306.17391v1
- Date: Fri, 30 Jun 2023 03:49:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 13:31:33.912633
- Title: EyeBAG: Accurate Control of Eye Blink and Gaze Based on Data
Augmentation Leveraging Style Mixing
- Title(参考訳): eyebag:スタイル混合を利用したデータ拡張に基づく眼点滅と視線の正確な制御
- Authors: Bryan S. Kim, Jeong Young Jeong, Wonjong Ryu
- Abstract要約: 本稿では、点滅制御モジュールと視線リダイレクトモジュールという、2つの異なるモジュールからなる新しいフレームワークを紹介する。
本フレームワークは,高品質な視線制御画像を作成し,下流タスクの性能向上にどのように役立つかを示す。
- 参考スコア(独自算出の注目度): 0.483420384410068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in generative models have enabled the generation of
photo-realistic human face images, and downstream tasks utilizing face
generation technology have advanced accordingly. However, models for downstream
tasks are yet substandard at eye control (e.g. eye blink, gaze redirection). To
overcome such eye control problems, we introduce a novel framework consisting
of two distinct modules: a blink control module and a gaze redirection module.
We also propose a novel data augmentation method to train each module,
leveraging style mixing to obtain images with desired features. We show that
our framework produces eye-controlled images of high quality, and demonstrate
how it can be used to improve the performance of downstream tasks.
- Abstract(参考訳): 近年, 画像生成モデルの開発により, 人間の顔画像生成が可能となり, 顔生成技術を利用した下流タスクも進歩している。
しかし、ダウンストリームタスクのモデルは、アイコントロール(アイブリンク、視線リダイレクトなど)ではいまだに標準以下である。
このような視線制御問題を克服するために,blinkコントロールモジュールとeyes redirectionモジュールという2つのモジュールからなる新しいフレームワークを導入する。
また,各モジュールを学習するための新たなデータ拡張手法を提案する。
当社のフレームワークが高画質のアイコントロール画像を生成することを示し,ダウンストリームタスクのパフォーマンス向上にどのように役立つかを示す。
関連論文リスト
- Active Generation for Image Classification [50.18107721267218]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Referee Can Play: An Alternative Approach to Conditional Generation via
Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。
先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。
差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文 参考訳(メタデータ) (2024-02-26T05:08:40Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - FoveaTer: Foveated Transformer for Image Classification [8.207403859762044]
本研究では,プール領域とサスカディック動作を用いてオブジェクト分類タスクを行うFoveaTerモデルを提案する。
本研究では,提案モデルと未発見モデルを用いてアンサンブルモデルを構築し,未発見モデルよりも精度1.36%の精度で計算コストを22%削減した。
論文 参考訳(メタデータ) (2021-05-29T01:54:33Z) - Self-Learning Transformations for Improving Gaze and Head Redirection [49.61091281780071]
視線や頭部方向の角度をきめ細かな制御で高品質な画像を生成できる新しい顔画像生成モデルを提案する。
これは、視線やヘッドオリエンテーション、照明、色合いなど、多くの外見上の要因を解消する必要がある。
タスク非関連要因の明示的解消は、視線と頭部の向きのより正確なモデリングをもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-23T11:18:37Z) - Dual In-painting Model for Unsupervised Gaze Correction and Animation in
the Wild [82.42401132933462]
視線角度と頭部ポーズの正確なアノテーションを必要とせずに機能する解を提案する。
我々の手法は3つの新しいモジュールからなる: Gaze Correction Module (GCM)、 Gaze Animation Module (GAM)、 Pretrained Autoencoder Module (PAM)。
論文 参考訳(メタデータ) (2020-08-09T23:14:16Z) - Towards a Neural Graphics Pipeline for Controllable Image Generation [96.11791992084551]
ニューラルグラフパイプライン(NGP)は,ニューラルネットワークと従来の画像形成モデルを組み合わせたハイブリッド生成モデルである。
NGPは、画像を解釈可能な外観特徴マップの集合に分解し、制御可能な画像生成のための直接制御ハンドルを明らかにする。
単目的シーンの制御可能な画像生成におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T14:22:54Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。