論文の概要: Durian: Dual Reference Image-Guided Portrait Animation with Attribute Transfer
- arxiv url: http://arxiv.org/abs/2509.04434v2
- Date: Sun, 28 Sep 2025 08:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.505102
- Title: Durian: Dual Reference Image-Guided Portrait Animation with Attribute Transfer
- Title(参考訳): Durian:Dual Reference Image-Guided Portrait Animation with Attribute Transfer
- Authors: Hyunsoo Cha, Byungjun Kim, Hanbyul Joo,
- Abstract要約: デュリアンは、1つ以上の参照画像から対象のポートレートに相互同一性属性を伝達したポートレートアニメーションビデオを生成するための最初の方法である。
本稿では,通常のポートレートビデオを利用して,明示的なペアデータなしで属性転送を学習する自己再構成式を提案する。
Durianは、属性転送を伴うポートレートアニメーションの最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 25.28480310712273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Durian, the first method for generating portrait animation videos with cross-identity attribute transfer from one or more reference images to a target portrait. Training such models typically requires attribute pairs of the same individual, which are rarely available at scale. To address this challenge, we propose a self-reconstruction formulation that leverages ordinary portrait videos to learn attribute transfer without explicit paired data. Two frames from the same video act as a pseudo pair: one serves as an attribute reference and the other as an identity reference. To enable this self-reconstruction training, we introduce a Dual ReferenceNet that processes the two references separately and then fuses their features via spatial attention within a diffusion model. To make sure each reference functions as a specialized stream for either identity or attribute information, we apply complementary masking to the reference images. Together, these two components guide the model to reconstruct the original video, naturally learning cross-identity attribute transfer. To bridge the gap between self-reconstruction training and cross-identity inference, we introduce a mask expansion strategy and augmentation schemes, enabling robust transfer of attributes with varying spatial extent and misalignment. Durian achieves state-of-the-art performance on portrait animation with attribute transfer. Moreover, its dual reference design uniquely supports multi-attribute composition and smooth attribute interpolation within a single generation pass, enabling highly flexible and controllable synthesis.
- Abstract(参考訳): 我々は,1つ以上の参照画像から対象のポートレートへの相互同一性属性の移動による肖像画アニメーションビデオを生成するための最初の方法であるDurianを提案する。
そのようなモデルのトレーニングには、通常、同じ個人の属性ペアが必要です。
この課題に対処するために、通常のポートレートビデオを利用して、明示的なペアデータなしで属性転送を学習する自己再構成定式化を提案する。
同じビデオの2フレームは擬似ペアとして機能し、1フレームは属性参照として、もう1フレームはアイデンティティ参照として機能する。
この自己再構成トレーニングを実現するために,2つの参照を個別に処理し,拡散モデル内の空間的注意を通して特徴を融合するDual ReferenceNetを導入する。
識別情報や属性情報に対して,それぞれの参照関数が特別なストリームとして機能することを確認するため,参照画像に補完マスクを適用する。
これら2つのコンポーネントは、モデルに元のビデオの再構築を誘導し、自然にクロスアイデンティティ属性の転送を学習する。
自己再構成トレーニングとクロスアイデンティティ推論のギャップを埋めるために,マスク拡張戦略と拡張スキームを導入する。
Durianは、属性転送を伴うポートレートアニメーションの最先端のパフォーマンスを達成する。
さらに、マルチ属性合成とスムーズな特性補間を単一の世代パス内で一意にサポートし、高い柔軟性と制御可能な合成を可能にする。
関連論文リスト
- Pose and Facial Expression Transfer by using StyleGAN [1.757194730633422]
顔画像間でポーズと表情を伝達する手法を提案する。
モデルは、ソース顔画像のポーズと表現がターゲットIDに転送される出力画像を生成する。
論文 参考訳(メタデータ) (2025-04-17T15:29:41Z) - IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - PERSE: Personalized 3D Generative Avatars from A Single Portrait [7.890834685325639]
PERSEは、参照ポートレートからアニマタブルなパーソナライズされた生成アバターを構築する方法である。
提案手法は,大規模合成2Dビデオデータセットの合成から始まる。
顔属性を編集した高品質なフォトリアリスティックな2Dビデオを生成するための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-12-30T18:59:58Z) - Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Portrait Diffusion: Training-free Face Stylization with
Chain-of-Painting [64.43760427752532]
顔のスタイリゼーション(face stylization)とは、顔の特定の肖像画スタイルへの変換を指す。
現在の手法では、ファインチューン事前訓練された生成モデルに対するサンプルベースの適応アプローチが必要とされる。
本稿では,ポートレートディフュージョン(Portrait Diffusion)という,トレーニング不要な顔スタイル化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-03T06:48:35Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - 3D GAN Inversion for Controllable Portrait Image Animation [45.55581298551192]
我々は新たに開発された3D GANを活用し、マルチビュー一貫性のある画像対象のポーズを明示的に制御できる。
ポートレート・イメージ・アニメーションの手法は、画像の品質、アイデンティティの保存、ポーズ・トランスファーの点で、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-25T04:06:06Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z) - MulGAN: Facial Attribute Editing by Exemplar [2.272764591035106]
遅延特徴空間の予め定義された領域に画像の属性関連情報をエンコードする手法では、逆の属性を持つ一対の画像を列車モデルへの入力として利用する。
それらには、3つの制限がある:(1)モデルが入力として反対の属性を持つ一対のイメージを使用して訓練されなければならない;(2)複数の属性を例によって編集する能力の弱い;(3)画像生成の質が悪い。
論文 参考訳(メタデータ) (2019-12-28T04:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。