Fugu-MT 論文翻訳(概要): StyO: Stylize Your Face in Only One-shot

論文の概要: StyO: Stylize Your Face in Only One-shot

arxiv url: http://arxiv.org/abs/2303.03231v3
Date: Fri, 13 Dec 2024 12:09:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.45531
Title: StyO: Stylize Your Face in Only One-shot
Title（参考訳）: StyO:ワンショットで顔がスタイラスになる
Authors: Bonan Li, Zicheng Zhang, Xuecheng Nie, Congying Han, Yinhan Hu, Xinmin Qiu, Tiande Guo,
Abstract要約: 本稿では,1つの芸術的対象を持つ顔のスタイリングに焦点を当てた。このタスクの既存の作業は、ジオメトリの変化を達成しながら、ソース内容の保持に失敗することが多い。上記の問題を解決するために,新しいStyOモデル,すなわち1ショットで顔をスタイリングする。
参考スコア（独自算出の注目度）: 11.715601955568536
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper focuses on face stylization with a single artistic target. Existing works for this task often fail to retain the source content while achieving geometry variation. Here, we present a novel StyO model, ie. Stylize the face in only One-shot, to solve the above problem. In particular, StyO exploits a disentanglement and recombination strategy. It first disentangles the content and style of source and target images into identifiers, which are then recombined in a cross manner to derive the stylized face image. In this way, StyO decomposes complex images into independent and specific attributes, and simplifies one-shot face stylization as the combination of different attributes from input images, thus producing results better matching face geometry of target image and content of source one. StyO is implemented with latent diffusion models (LDM) and composed of two key modules: 1) Identifier Disentanglement Learner (IDL) for disentanglement phase. It represents identifiers as contrastive text prompts, ie. positive and negative descriptions. And it introduces a novel triple reconstruction loss to fine-tune the pre-trained LDM for encoding style and content into corresponding identifiers; 2) Fine-grained Content Controller (FCC) for the recombination phase. It recombines disentangled identifiers from IDL to form an augmented text prompt for generating stylized faces. In addition, FCC also constrains the cross-attention maps of latent and text features to preserve source face details in results. The extensive evaluation shows that StyO produces high-quality images on numerous paintings of various styles and outperforms the current state-of-the-art.
Abstract（参考訳）: 本稿では,1つの芸術的対象を持つ顔のスタイリングに焦点を当てた。このタスクの既存の作業は、ジオメトリの変化を達成しながら、ソース内容の保持に失敗することが多い。ここでは、新しいStyOモデルを示す。上記の問題を解決するため、一発で顔をスタイリングする。特に、StyOはアンタングルとリコンビネーション戦略を利用している。まず、ソースとターゲットの画像の内容とスタイルを識別子に切り離し、それを横断的に組み換えて、スタイリングされた顔画像を引き出す。このように、StyOは複雑な画像を独立した属性と特定の属性に分解し、入力画像と異なる属性の組み合わせとしてワンショットの顔スタイリングを単純化し、ターゲット画像の顔形状とソース画像の内容とのマッチングをより良くする。 StyOは遅延拡散モデル(LDM)で実装され、2つの主要なモジュールから構成される。 1)不整合位相のための識別器非整合学習器(IDL) 識別子をコントラストテキストプロンプトとして表現します。肯定的かつ否定的な説明ですそして、トレーニング済みのLDMを微調整して、スタイルとコンテンツを対応する識別子に符号化する、新しいトリプル再構築損失を導入する。 2) 組換えフェーズ用の細粒度コンテンツコントローラ(FCC)。 IDLから切り離された識別子を再結合し、スタイリングされた顔を生成するための拡張テキストプロンプトを形成する。さらにFCCは、潜在機能とテキスト機能の横断的アテンションマップを制約して、結果のソース顔の詳細を保存している。 StyOは様々なスタイルの絵画で高品質な映像を制作し、現状よりも優れていた。

関連論文リスト

Structure-Level Disentangled Diffusion for Few-Shot Chinese Font Generation [18.601789249339014]
中国のフォント生成は、少数の参照画像のみを使用して、ターゲットスタイルで新しい文字を合成することを目的としている。既存のアプローチは機能レベルのアンタングルのみを達成するため、ジェネレータはこれらの機能を再アンタングルすることができる。本研究では,2つのチャンネルからコンテンツとスタイル情報を受信する構造レベル分散拡散モデルを提案する。
論文参考訳（メタデータ） (2026-02-21T15:41:06Z)
Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement [54.199726425201895]
大規模モデルのマルチモーダル編集は、様々なタスクにまたがる強力な編集機能を示している。現在の顔認証保存法は、顔認証と編集済み要素IPの整合性回復に苦慮している。そこで我々は,頑健なアイデンティティ特異的顔復元のためのアライメント・ディスタングルメント・アンタングルメント・フレームワークであるEditedIDを提案する。
論文参考訳（メタデータ） (2026-02-21T08:24:42Z)
OSDFace: One-Step Diffusion Model for Face Restoration [72.5045389847792]
拡散モデルは、顔の修復において顕著な性能を示した。顔復元のための新しいワンステップ拡散モデルOSDFaceを提案する。その結果,OSDFaceは現状のSOTA(State-of-the-art)手法を視覚的品質と定量的指標の両方で上回っていることがわかった。
論文参考訳（メタデータ） (2024-11-26T07:07:48Z)
Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文参考訳（メタデータ） (2024-09-27T19:31:04Z)
Arc2Face: A Foundation Model for ID-Consistent Human Faces [95.00331107591859]
Arc2Faceは、ID条件のフェイスファンデーションモデルである。既存のモデルと無矛盾の顔類似度で、多様なフォトリアリスティック画像を生成することができる。
論文参考訳（メタデータ） (2024-03-18T10:32:51Z)
DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。 DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文参考訳（メタデータ） (2024-03-11T17:35:23Z)
Face Swap via Diffusion Model [4.026688121914668]
本稿では2つのポートレート画像間の顔交換のための拡散モデルに基づくフレームワークを提案する。基本フレームワークは、顔の特徴符号化、多条件生成、顔の塗装の3つのコンポーネントで構成されている。
論文参考訳（メタデータ） (2024-03-02T07:02:17Z)
High-Fidelity Face Swapping with Style Blending [16.024260677867076]
高忠実な顔交換のための革新的なエンドツーエンドフレームワークを提案する。まず、スタイルGANベースの顔属性エンコーダを導入し、顔から重要な特徴を抽出し、潜在スタイルコードに変換する。第二に、ターゲットからターゲットへFace IDを効果的に転送するアテンションベースのスタイルブレンディングモジュールを導入する。
論文参考訳（メタデータ） (2023-12-17T23:22:37Z)
Portrait Diffusion: Training-free Face Stylization with Chain-of-Painting [64.43760427752532]
顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。現在の手法では、ファインチューン事前訓練された生成モデルに対するサンプルベースの適応アプローチが必要とされる。本稿では,ポートレートディフュージョン(Portrait Diffusion)という,トレーニング不要な顔スタイル化フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-03T06:48:35Z)
When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文参考訳（メタデータ） (2023-11-29T09:05:14Z)
Semantics-Guided Object Removal for Facial Images: with Broad Applicability and Robust Style Preservation [29.162655333387452]
顔画像における物体の除去と画像の塗布は、顔画像を妨げる物体を特に標的にし、除去し、適切に再構成された顔画像に置き換えるタスクである。 U-netと変調ジェネレータを利用する2つの異なるアプローチは、それぞれに固有の利点があるが、それぞれの手法の固有の欠点にもかかわらず、このタスクに対して広く支持されている。本稿では,SGIN(Semantics-Guided Inpainting Network)を提案する。
論文参考訳（メタデータ） (2022-09-29T00:09:12Z)
T-Person-GAN: Text-to-Person Image Generation with Identity-Consistency and Manifold Mix-Up [16.165889084870116]
テキストのみに条件付けされた高解像度の人物画像を生成するためのエンドツーエンドアプローチを提案する。 2つの新しいメカニズムで人物画像を生成するための効果的な生成モデルを開発する。
論文参考訳（メタデータ） (2022-08-18T07:41:02Z)
Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文参考訳（メタデータ） (2021-06-15T03:10:17Z)
Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文参考訳（メタデータ） (2021-04-29T17:59:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。