Fugu-MT 論文翻訳(概要): EyeBAG: Accurate Control of Eye Blink and Gaze Based on Data Augmentation Leveraging Style Mixing

論文の概要: EyeBAG: Accurate Control of Eye Blink and Gaze Based on Data Augmentation Leveraging Style Mixing

arxiv url: http://arxiv.org/abs/2306.17391v1
Date: Fri, 30 Jun 2023 03:49:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-03 13:31:33.912633
Title: EyeBAG: Accurate Control of Eye Blink and Gaze Based on Data Augmentation Leveraging Style Mixing
Title（参考訳）: eyebag:スタイル混合を利用したデータ拡張に基づく眼点滅と視線の正確な制御
Authors: Bryan S. Kim, Jeong Young Jeong, Wonjong Ryu
Abstract要約: 本稿では、点滅制御モジュールと視線リダイレクトモジュールという、2つの異なるモジュールからなる新しいフレームワークを紹介する。本フレームワークは,高品質な視線制御画像を作成し,下流タスクの性能向上にどのように役立つかを示す。
参考スコア（独自算出の注目度）: 0.483420384410068
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent developments in generative models have enabled the generation of photo-realistic human face images, and downstream tasks utilizing face generation technology have advanced accordingly. However, models for downstream tasks are yet substandard at eye control (e.g. eye blink, gaze redirection). To overcome such eye control problems, we introduce a novel framework consisting of two distinct modules: a blink control module and a gaze redirection module. We also propose a novel data augmentation method to train each module, leveraging style mixing to obtain images with desired features. We show that our framework produces eye-controlled images of high quality, and demonstrate how it can be used to improve the performance of downstream tasks.
Abstract（参考訳）: 近年, 画像生成モデルの開発により, 人間の顔画像生成が可能となり, 顔生成技術を利用した下流タスクも進歩している。しかし、ダウンストリームタスクのモデルは、アイコントロール(アイブリンク、視線リダイレクトなど)ではいまだに標準以下である。このような視線制御問題を克服するために,blinkコントロールモジュールとeyes redirectionモジュールという2つのモジュールからなる新しいフレームワークを導入する。また,各モジュールを学習するための新たなデータ拡張手法を提案する。当社のフレームワークが高画質のアイコントロール画像を生成することを示し,ダウンストリームタスクのパフォーマンス向上にどのように役立つかを示す。

関連論文リスト

A Practical Investigation of Spatially-Controlled Image Generation with Transformers [16.682348277650817]
我々は,空間的に制御された生成システムを開発したいと考える実践者に対して,世代パラダイムをまたいだ明確なテイクアウトを提供することを目指している。我々は、拡散ベース/フローベースおよび自己回帰(AR)モデル間で、ImageNet上で制御実験を行う。
論文参考訳（メタデータ） (2025-07-21T15:33:49Z)
ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文参考訳（メタデータ） (2025-06-04T05:56:19Z)
DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
DynamiCtrlはMM-DiTで異なるポーズ誘導構造を探索する新しいフレームワークである。適応層正規化を利用してスパースポーズ特徴を符号化するPose-Adaptive Layer Norm (PadaLN)を提案する。テキストを活用することで、生成したコンテンツのきめ細かい制御を可能にするだけでなく、初めて背景と動きの同時制御を実現する。
論文参考訳（メタデータ） (2025-03-27T08:07:45Z)
CAR: Controllable Autoregressive Modeling for Visual Generation [100.33455832783416]
Controllable AutoRegressive Modeling (CAR)は、条件制御をマルチスケールの潜在変数モデリングに統合する新しいプラグイン・アンド・プレイフレームワークである。 CARは、制御表現を徐々に洗練し、キャプチャし、前訓練されたモデルの各自己回帰ステップに注入して生成プロセスを導く。提案手法は,様々な条件にまたがって優れた制御性を示し,従来の手法に比べて画質の向上を実現している。
論文参考訳（メタデータ） (2024-10-07T00:55:42Z)
ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文参考訳（メタデータ） (2024-06-14T06:35:33Z)
Referee Can Play: An Alternative Approach to Conditional Generation via Model Inversion [35.21106030549071]
拡散確率モデル(DPM)はテキスト・画像生成タスクにおいて支配的な力である。先進視覚言語モデル(VLM)の逆転手法として、最先端DPMの代替的視点を提案する。差別的VLMを監督した画像を直接最適化することにより、提案手法はより優れたテキスト画像アライメントを実現することができる。
論文参考訳（メタデータ） (2024-02-26T05:08:40Z)
Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。 PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文参考訳（メタデータ） (2022-03-22T15:59:44Z)
Self-Learning Transformations for Improving Gaze and Head Redirection [49.61091281780071]
視線や頭部方向の角度をきめ細かな制御で高品質な画像を生成できる新しい顔画像生成モデルを提案する。これは、視線やヘッドオリエンテーション、照明、色合いなど、多くの外見上の要因を解消する必要がある。タスク非関連要因の明示的解消は、視線と頭部の向きのより正確なモデリングをもたらすことを示す。
論文参考訳（メタデータ） (2020-10-23T11:18:37Z)
Towards a Neural Graphics Pipeline for Controllable Image Generation [96.11791992084551]
ニューラルグラフパイプライン(NGP)は,ニューラルネットワークと従来の画像形成モデルを組み合わせたハイブリッド生成モデルである。 NGPは、画像を解釈可能な外観特徴マップの集合に分解し、制御可能な画像生成のための直接制御ハンドルを明らかにする。単目的シーンの制御可能な画像生成におけるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2020-06-18T14:22:54Z)
Towards Coding for Human and Machine Vision: A Scalable Image Coding Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文参考訳（メタデータ） (2020-01-09T10:37:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。