論文の概要: Durian: Dual Reference-guided Portrait Animation with Attribute Transfer
- arxiv url: http://arxiv.org/abs/2509.04434v1
- Date: Thu, 04 Sep 2025 17:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.245508
- Title: Durian: Dual Reference-guided Portrait Animation with Attribute Transfer
- Title(参考訳): Durian:Dual Reference-Guided Portrait Animation with Attribute Transfer
- Authors: Hyunsoo Cha, Byungjun Kim, Hanbyul Joo,
- Abstract要約: デュリアンは、与えられた参照画像からターゲットポートレートへゼロショットで顔属性を転送した肖像画アニメーションビデオを生成するための最初の方法である。
本稿では,像像と属性画像の両方から空間的特徴を拡散モデルの認知過程に注入する2つの参照ネットワークを提案する。
- 参考スコア(独自算出の注目度): 25.28480310712273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Durian, the first method for generating portrait animation videos with facial attribute transfer from a given reference image to a target portrait in a zero-shot manner. To enable high-fidelity and spatially consistent attribute transfer across frames, we introduce dual reference networks that inject spatial features from both the portrait and attribute images into the denoising process of a diffusion model. We train the model using a self-reconstruction formulation, where two frames are sampled from the same portrait video: one is treated as the attribute reference and the other as the target portrait, and the remaining frames are reconstructed conditioned on these inputs and their corresponding masks. To support the transfer of attributes with varying spatial extent, we propose a mask expansion strategy using keypoint-conditioned image generation for training. In addition, we further augment the attribute and portrait images with spatial and appearance-level transformations to improve robustness to positional misalignment between them. These strategies allow the model to effectively generalize across diverse attributes and in-the-wild reference combinations, despite being trained without explicit triplet supervision. Durian achieves state-of-the-art performance on portrait animation with attribute transfer, and notably, its dual reference design enables multi-attribute composition in a single generation pass without additional training.
- Abstract(参考訳): 画像の参照画像から対象のポートレートへゼロショットで顔の属性を転送するアニメーションビデオを生成するための,最初の方法であるDurianを提案する。
フレーム間の高忠実で空間的に整合性のある属性転送を実現するために,ポートレート画像と属性画像の両方から空間的特徴を拡散モデルの認知過程に注入する2つの参照ネットワークを導入する。
我々は,2つのフレームを同一のポートレートビデオからサンプリングし,一方を属性参照として,もう一方を対象のポートレートとして扱い,残りのフレームをこれらの入力と対応するマスクに条件付けして再構成する自己再構成定式化を用いてモデルを訓練する。
空間範囲の異なる属性の転送を支援するために,キーポイント条件付き画像生成を用いたマスク拡張戦略を提案する。
さらに,特徴像と像像を空間的および外観的変換で拡張し,それらの間の位置ずれに対するロバスト性を向上させる。
これらの戦略により、モデルは、明示的な三重項の監督なしに訓練されているにもかかわらず、様々な属性と、その中の参照の組み合わせを効果的に一般化することができる。
Durianは、属性転送を伴うポートレートアニメーションの最先端のパフォーマンスを実現し、その2つの参照設計により、追加のトレーニングなしで単一の世代パスでのマルチ属性合成が可能となる。
関連論文リスト
- Pose and Facial Expression Transfer by using StyleGAN [1.757194730633422]
顔画像間でポーズと表情を伝達する手法を提案する。
モデルは、ソース顔画像のポーズと表現がターゲットIDに転送される出力画像を生成する。
論文 参考訳(メタデータ) (2025-04-17T15:29:41Z) - IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - PERSE: Personalized 3D Generative Avatars from A Single Portrait [7.890834685325639]
PERSEは、参照ポートレートからアニマタブルなパーソナライズされた生成アバターを構築する方法である。
提案手法は,大規模合成2Dビデオデータセットの合成から始まる。
顔属性を編集した高品質なフォトリアリスティックな2Dビデオを生成するための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-12-30T18:59:58Z) - Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Portrait Diffusion: Training-free Face Stylization with
Chain-of-Painting [64.43760427752532]
顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。
現在の手法では、ファインチューン事前訓練された生成モデルに対するサンプルベースの適応アプローチが必要とされる。
本稿では,ポートレートディフュージョン(Portrait Diffusion)という,トレーニング不要な顔スタイル化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:48:35Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - 3D GAN Inversion for Controllable Portrait Image Animation [45.55581298551192]
我々は新たに開発された3D GANを活用し、マルチビュー一貫性のある画像対象のポーズを明示的に制御できる。
ポートレート・イメージ・アニメーションの手法は、画像の品質、アイデンティティの保存、ポーズ・トランスファーの点で、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-25T04:06:06Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z) - MulGAN: Facial Attribute Editing by Exemplar [2.272764591035106]
遅延特徴空間の予め定義された領域に画像の属性関連情報をエンコードする手法では、逆の属性を持つ一対の画像を列車モデルへの入力として利用する。
それらには、3つの制限がある:(1)モデルが入力として反対の属性を持つ一対のイメージを使用して訓練されなければならない;(2)複数の属性を例によって編集する能力の弱い;(3)画像生成の質が悪い。
論文 参考訳(メタデータ) (2019-12-28T04:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。