論文の概要: FISTNet: FusIon of STyle-path generative Networks for Facial Style Transfer
- arxiv url: http://arxiv.org/abs/2307.09020v3
- Date: Tue, 2 Apr 2024 15:46:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 13:31:56.725098
- Title: FISTNet: FusIon of STyle-path generative Networks for Facial Style Transfer
- Title(参考訳): FISTNet: 顔スタイル伝達のためのステレオパス生成ネットワークのFusIon
- Authors: Sunder Ali Khowaja, Lewis Nkenyereye, Ghulam Mujtaba, Ik Hyun Lee, Giancarlo Fortino, Kapal Dev,
- Abstract要約: StyleGAN法は、顔画像にアーティファクトが導入された結果、過度に適合する傾向にある。
本稿では,事前学習したマルチパス方式の転送ネットワークを利用する顔画像のためのFusIon of STyles(FIST)ネットワークを提案する。
- 参考スコア(独自算出の注目度): 15.308837341075135
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the surge in emerging technologies such as Metaverse, spatial computing, and generative AI, the application of facial style transfer has gained a lot of interest from researchers as well as startups enthusiasts alike. StyleGAN methods have paved the way for transfer-learning strategies that could reduce the dependency on the huge volume of data that is available for the training process. However, StyleGAN methods have the tendency of overfitting that results in the introduction of artifacts in the facial images. Studies, such as DualStyleGAN, proposed the use of multipath networks but they require the networks to be trained for a specific style rather than generating a fusion of facial styles at once. In this paper, we propose a FusIon of STyles (FIST) network for facial images that leverages pre-trained multipath style transfer networks to eliminate the problem associated with lack of huge data volume in the training phase along with the fusion of multiple styles at the output. We leverage pre-trained styleGAN networks with an external style pass that use residual modulation block instead of a transform coding block. The method also preserves facial structure, identity, and details via the gated mapping unit introduced in this study. The aforementioned components enable us to train the network with very limited amount of data while generating high-quality stylized images. Our training process adapts curriculum learning strategy to perform efficient, flexible style and model fusion in the generative space. We perform extensive experiments to show the superiority of FISTNet in comparison to existing state-of-the-art methods.
- Abstract(参考訳): Metaverse(メタバース)や空間コンピューティング(空間コンピューティング)、ジェネレーティブAI(ジェネレーティブAI)といった新興技術の普及に伴い、顔のスタイル変換の応用は、研究者やスタートアップ愛好家たちからも大きな関心を集めている。
StyleGANメソッドは、トレーニングプロセスで利用可能な大量のデータへの依存を減らすことができる転送学習戦略の道を開いた。
しかし、StyleGAN法は、顔画像にアーティファクトが導入された結果、過度に適合する傾向にある。
DualStyleGANのような研究は、マルチパスネットワークの使用を提案したが、それらは一度に顔のスタイルを融合させるのではなく、特定のスタイルでネットワークを訓練する必要がある。
本稿では,事前学習したマルチパススタイルの転送ネットワークを利用する顔画像のためのFusIon of STyles(FIST)ネットワークを提案する。
我々は、トランスフォーメーション符号化ブロックの代わりに残留変調ブロックを使用する外部スタイルパスを用いた事前学習型GANネットワークを利用する。
また,本研究で導入されたゲートマッピングユニットを通じて,顔の構造,アイデンティティ,詳細を保存している。
上述のコンポーネントは、高品質なスタイリング画像を生成しながら、非常に限られた量のデータでネットワークを訓練することができる。
学習過程はカリキュラムの学習戦略に適応し、生成空間における効率的で柔軟なスタイルとモデル融合を実現する。
我々は,既存の最先端手法と比較して,FISTNetの優位性を示すため,広範囲な実験を行った。
関連論文リスト
- Harnessing the Latent Diffusion Model for Training-Free Image Style Transfer [24.46409405016844]
スタイル転送タスクは、スタイルイメージの視覚的属性を他のコンテンツイメージに転送する課題の1つである。
我々は、事前訓練された潜在拡散モデル(LDM)のための学習不要なスタイル伝達アルゴリズム、スタイルトラッキング逆拡散プロセス(STRDP)を提案する。
本アルゴリズムは, LDMの逆拡散過程において, 適応インスタンス正規化(AdaIN)関数を異なる方法で適用する。
論文 参考訳(メタデータ) (2024-10-02T09:28:21Z) - High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。
まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。
第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文 参考訳(メタデータ) (2023-12-17T23:22:37Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - StyleAdv: Meta Style Adversarial Training for Cross-Domain Few-Shot
Learning [89.86971464234533]
Cross-Domain Few-Shot Learning (CD-FSL)は、最近登場したタスクで、異なるドメインにわたる数ショットの学習に対処している。
本稿では,モデルに依存しないメタスタイル逆アタック(StyleAdv)手法と,新しいスタイル逆アタック手法を提案する。
本手法は視覚的スタイルに対して徐々に頑健であり,新たなターゲットデータセットの一般化能力を高める。
論文 参考訳(メタデータ) (2023-02-18T11:54:37Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - Deep Translation Prior: Test-time Training for Photorealistic Style
Transfer [36.82737412912885]
近年のCNN(Deep Convolutional Neural Network)におけるフォトリアリスティックなスタイル転送の解決には,大規模データセットからの集中的なトレーニングが必要となる。
提案手法はDTP(Deep Translation Prior)とよばれる新しいフレームワークで,与えられた入力画像対とトレーニングされていないネットワークをテストタイムでトレーニングすることで,フォトリアリスティックなスタイルの転送を実現する。
論文 参考訳(メタデータ) (2021-12-12T04:54:27Z) - DAFormer: Improving Network Architectures and Training Strategies for
Domain-Adaptive Semantic Segmentation [99.88539409432916]
教師なしドメイン適応(UDA)プロセスについて検討する。
ベンチマーク結果に基づいて,新しい UDA 手法である DAFormer を提案する。
DAFormerは,GTA->Cityscapesの10.8 mIoU,Synthia->Cityscapesの5.4 mIoUにより,最先端の性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-29T19:00:46Z) - Multi-Agent Semi-Siamese Training for Long-tail and Shallow Face
Learning [54.13876727413492]
多くの現実世界の顔認識シナリオでは、トレーニングデータセットの深さは浅いため、IDごとに2つの顔画像しか利用できません。
非均一なサンプルの増加により、このような問題はより一般的なケース、すなわち長い尾の顔学習に変換される。
これらの問題に対処するために,マルチエージェントセミシアントレーニング(masst)という高度なソリューションを導入する。
広範な実験と比較は、長い尾と浅い顔学習のためのMASSTの利点を示しています。
論文 参考訳(メタデータ) (2021-05-10T04:57:32Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。