論文の概要: Improving Generative Adversarial Network Generalization for Facial Expression Synthesis
- arxiv url: http://arxiv.org/abs/2603.15648v1
- Date: Wed, 04 Mar 2026 20:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.339759
- Title: Improving Generative Adversarial Network Generalization for Facial Expression Synthesis
- Title(参考訳): 顔表情合成のための生成的対向ネットワーク一般化の改善
- Authors: Arbish Akram, Nazar Khan, Arif Mahmood,
- Abstract要約: 条件付き生成逆数ネットワーク(GAN)は、画像間翻訳の優れた結果が得られるが、テスト画像がトレーニングデータセットと異なる場合、その性能は劣化することが多い。
本稿ではRegGAN(Regression GAN)について述べる。このモデルは中間表現を学習し、トレーニング分布を超えて一般化を改善する。
RegGANは、表現品質の25%、アイデンティティ保存の26%、リアリズムの30%で最高の競合モデルを上回っている。
- 参考スコア(独自算出の注目度): 18.319402541121917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial expression synthesis aims to generate realistic facial expressions while preserving identity. Existing conditional generative adversarial networks (GANs) achieve excellent image-to-image translation results, but their performance often degrades when test images differ from the training dataset. We present Regression GAN (RegGAN), a model that learns an intermediate representation to improve generalization beyond the training distribution. RegGAN consists of two components: a regression layer with local receptive fields that learns expression details by minimizing the reconstruction error through a ridge regression loss, and a refinement network trained adversarially to enhance the realism of generated images. We train RegGAN on the CFEE dataset and evaluate its generalization performance both on CFEE and challenging out-of-distribution images, including celebrity photos, portraits, statues, and avatar renderings. For evaluation, we employ four widely used metrics: Expression Classification Score (ECS) for expression quality, Face Similarity Score (FSS) for identity preservation, QualiCLIP for perceptual realism, and Fréchet Inception Distance (FID) for assessing both expression quality and realism. RegGAN outperforms six state-of-the-art models in ECS, FID, and QualiCLIP, while ranking second in FSS. Human evaluations indicate that RegGAN surpasses the best competing model by 25% in expression quality, 26% in identity preservation, and 30% in realism.
- Abstract(参考訳): 表情合成は、アイデンティティを保ちながら現実的な表情を生成することを目的としている。
既存の条件付き生成逆数ネットワーク(GAN)は、画像間翻訳の優れた結果が得られるが、テスト画像がトレーニングデータセットと異なる場合、その性能は劣化することが多い。
本稿ではRegGAN(Regression GAN)について述べる。このモデルは中間表現を学習し、トレーニング分布を超えて一般化を改善する。
RegGANは、リッジレグレッションロスによる再構成誤差を最小限に抑えて、表現詳細を学習する局所受容場を持つ回帰層と、生成された画像のリアリズムを高めるために逆向きに訓練された精製ネットワークとからなる。
CFEEデータセット上でRegGANをトレーニングし、CFEE上での一般化性能と、有名写真、肖像画、彫像、アバターレンダリングを含む配布外画像への挑戦性能を評価する。
評価には、表現品質のための表現分類スコア(ECS)、アイデンティティ保存のための顔類似スコア(FSS)、知覚リアリズムのためのQualiCLIP、表現品質とリアリズムの両方を評価するためのFréchet Inception Distance(FID)の4つが広く使用されている。
RegGANはECS、FID、QuariCLIPの6つの最先端モデルより優れており、FSSでは2位である。
人間の評価では、RegGANは、表現品質の25%、アイデンティティ保存の26%、リアリズムの30%で最高の競合モデルを上回っている。
関連論文リスト
- Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion [2.510998372750843]
フリーハンドスケッチをフォトリアリスティックな画像に変換することは、画像合成の根本的な課題である。
GANベースのモデルや拡散ベースのモデルを含む既存のアプローチは、細かな細部を再構築したり、空間的アライメントを維持したり、異なるスケッチ領域に適応するのに苦労することが多い。
本稿では,新しい2段階アーキテクチャを用いて,これらの課題に対処するスケッチ・ツー・イメージ生成のための,コンポーネント対応の自己修正フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-10T10:39:24Z) - Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study [50.15623093332659]
入射神経表現(INR)は任意のスケール画像超解像(ASSR)の標準的アプローチとなっている
既存の手法を多様な設定で比較し、複数の画像品質指標に対して集計結果を示す。
トレーニング中, エッジ, テクスチャ, 細部を保存しながら, 強度変化をペナライズする新たな損失関数について検討した。
論文 参考訳(メタデータ) (2026-01-25T07:09:20Z) - GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。
量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。
標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-18T06:40:26Z) - Understand Before You Generate: Self-Guided Training for Autoregressive Image Generation [110.03631978640298]
本稿では,視覚領域に次世代の予測パラダイムを適用するメカニズムについて,初めて体系的に検討する。
高レベルの視覚的意味論の学習を妨げる3つの重要な特性を同定する。
これらの課題は、訓練中に自己指導的目的を導入することで効果的に対処できることが示される。
論文 参考訳(メタデータ) (2025-09-18T17:47:40Z) - E2F-Net: Eyes-to-Face Inpainting via StyleGAN Latent Space [4.110419543591102]
我々は、E2F-Net(Eyes-to-Face Network)と呼ばれるGANベースのモデルを提案する。
提案手法は,2つの専用エンコーダを用いて眼周囲領域から同一性および非同一性の特徴を抽出する。
提案手法は,現在の手法を超越して,高品質な顔全体の再構築に成功していることを示す。
論文 参考訳(メタデータ) (2024-03-18T19:11:34Z) - Assessing a Single Image in Reference-Guided Image Synthesis [14.936460594115953]
本稿では,単一生成画像の品質を定量的に評価するための,参照誘導画像合成アセスメント(RISA)を提案する。
このアノテーションは監視信号として大きすぎるため、1)粗いラベルを洗練するためのピクセルワイズスキームと、2)ナイーブ回帰器を置き換える複数のバイナリ分類器の2つの手法を導入する。
RISAは人間の好みと非常に整合しており、モデル間での転送も良好である。
論文 参考訳(メタデータ) (2021-12-08T08:22:14Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。