論文の概要: From Autoencoders to CycleGAN: Robust Unpaired Face Manipulation via Adversarial Learning
- arxiv url: http://arxiv.org/abs/2509.12176v1
- Date: Mon, 15 Sep 2025 17:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.431793
- Title: From Autoencoders to CycleGAN: Robust Unpaired Face Manipulation via Adversarial Learning
- Title(参考訳): 自己エンコーダからCycleGAN: 対向学習によるロバストな未経験顔操作
- Authors: Collin Guo,
- Abstract要約: 我々は,自己エンコーダベースラインから堅牢でガイド付きCycleGANフレームワークに移行することで,対向学習による不対面操作について検討する。
提案手法は, スペクトル正規化を, 安定トレーニング, アイデンティティと知覚誘導損失に応用し, 主観的アイデンティティと高レベル構造を維持する。
実験により,我々の相手が訓練したCycleGANは,自己エンコーダよりもリアル性(FID),知覚品質(LPIPS),ID保存(ID-Sim)を向上させることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human face synthesis and manipulation are increasingly important in entertainment and AI, with a growing demand for highly realistic, identity-preserving images even when only unpaired, unaligned datasets are available. We study unpaired face manipulation via adversarial learning, moving from autoencoder baselines to a robust, guided CycleGAN framework. While autoencoders capture coarse identity, they often miss fine details. Our approach integrates spectral normalization for stable training, identity- and perceptual-guided losses to preserve subject identity and high-level structure, and landmark-weighted cycle constraints to maintain facial geometry across pose and illumination changes. Experiments show that our adversarial trained CycleGAN improves realism (FID), perceptual quality (LPIPS), and identity preservation (ID-Sim) over autoencoders, with competitive cycle-reconstruction SSIM and practical inference times, which achieved high quality without paired datasets and approaching pix2pix on curated paired subsets. These results demonstrate that guided, spectrally normalized CycleGANs provide a practical path from autoencoders to robust unpaired face manipulation.
- Abstract(参考訳): 人間の顔の合成と操作は、エンターテイメントやAIにおいてますます重要になっている。
我々は,自己エンコーダベースラインから堅牢でガイド付きCycleGANフレームワークに移行することで,対向学習による不対面操作について検討する。
オートエンコーダは粗いアイデンティティをキャプチャするが、細かな詳細を見逃すことが多い。
提案手法は、安定トレーニングのためのスペクトル正規化、主観的アイデンティティと高次構造を維持するためのアイデンティティとパーセプチュアル誘導損失、およびポーズと照明の変化にまたがる顔形状を維持するためのランドマーク重み付きサイクル制約を統合する。
実験により,我々の対向学習したCycleGANは,自己エンコーダ上での現実性(FID),知覚品質(LPIPS),ID保存(ID-Sim)を向上し,競合サイクル再構成SSIMと実用的な推論時間により,ペアデータセットを使わずに高品質を達成し,キュレートされたサブセット上でピクセル2ピクセルに近づいた。
これらの結果は、ガイド付きスペクトル正規化のCycleGANが、オートエンコーダから頑健な顔操作までの実践的な経路を提供することを示している。
関連論文リスト
- From Large Angles to Consistent Faces: Identity-Preserving Video Generation via Mixture of Facial Experts [69.44297222099175]
顔の特徴の異なるが相互に強化された側面を捉えた顔専門家の混合(MoFE)を導入する。
データセットの制限を軽減するため、私たちは、Face ConstraintsとIdentity Consistencyという2つの重要な側面を中心としたデータ処理パイプラインを調整しました。
我々は、既存のオープンソースヒューマンビデオデータセットからLFA(Large Face Angles)データセットをキュレートし、洗練しました。
論文 参考訳(メタデータ) (2025-08-13T04:10:16Z) - Show and Polish: Reference-Guided Identity Preservation in Face Video Restoration [9.481604837168762]
Face Video Restoration (FVR)は、劣化したバージョンから高品質な顔ビデオを取り戻すことを目的としている。
従来の方法は、劣化が深刻であるときに、細粒でアイデンティティ固有の特徴を保存するのに苦労する。
視覚的プロンプトとして高品質な参照顔画像を活用する新しい手法であるIP-FVRを導入する。
論文 参考訳(メタデータ) (2025-07-14T14:01:37Z) - A Deep Learning Approach for Facial Attribute Manipulation and Reconstruction in Surveillance and Reconnaissance [5.980822697955566]
監視システムはセキュリティと偵察において重要な役割を果たすが、その性能は低品質の画像やビデオによって損なわれることが多い。
既存のAIベースの顔分析モデルは、皮膚のトーンの変化と部分的に隠された顔に関連するバイアスに悩まされている。
本稿では,データセットのバイアスを補うための合成トレーニングデータを生成することにより,監視機能を向上させるデータ駆動プラットフォームを提案する。
論文 参考訳(メタデータ) (2025-06-06T23:09:17Z) - Towards Generating Realistic Underwater Images [0.0]
VAROSデータセットを用いて,現実的な水中画像を生成するための画像翻訳モデルの性能について検討する。
ペア画像変換では、Pix2pixはそのペア監督とPatchGAN識別器により最高のFIDスコアを得る。
非ペア方式では、CycleGANはサイクル一貫性損失を利用して競合的なFIDスコアを得るが、CUTはサイクル一貫性を対照的な学習に置き換え、より高いSSIMを得る。
論文 参考訳(メタデータ) (2025-05-20T12:44:19Z) - Alleviating Catastrophic Forgetting in Facial Expression Recognition with Emotion-Centered Models [49.3179290313959]
感情中心型生成的リプレイ (ECgr) は, 生成的対向ネットワークから合成画像を統合することで, この課題に対処する。
ECgrは、生成された画像の忠実性を保証するために品質保証アルゴリズムを組み込んでいる。
4つの多様な表情データセットに対する実験結果から,擬似リハーサル法により生成されたイメージを組み込むことで,ターゲットとするデータセットとソースデータセットのトレーニングが促進されることが示された。
論文 参考訳(メタデータ) (2024-04-18T15:28:34Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Identity-Aware CycleGAN for Face Photo-Sketch Synthesis and Recognition [61.87842307164351]
まず,画像生成ネットワークの監視に新たな知覚損失を適用したIACycleGAN(Identity-Aware CycleGAN)モデルを提案する。
眼や鼻などの重要な顔領域の合成により多くの注意を払うことで、フォトエッチング合成におけるサイクガンを改善する。
IACycleGANによる画像の合成を反復的に行う合成モデルと認識モデルとの相互最適化手法を開発した。
論文 参考訳(メタデータ) (2021-03-30T01:30:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。