論文の概要: AnyPhoto: Multi-Person Identity Preserving Image Generation with ID Adaptive Modulation on Location Canvas
- arxiv url: http://arxiv.org/abs/2603.14770v1
- Date: Mon, 16 Mar 2026 03:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.020914
- Title: AnyPhoto: Multi-Person Identity Preserving Image Generation with ID Adaptive Modulation on Location Canvas
- Title(参考訳): AnyPhoto: 位置キャンバス上のID適応変調による画像生成のためのマルチパーソンアイデンティティ
- Authors: Longhui Yuan,
- Abstract要約: 強いアイデンティティ/アイデンティティ条件は、しばしばコピーペーストショートカットを誘発し、プロンプト駆動制御性を弱める。
拡散変換器の微調整フレームワークであるAnyPhotoについて述べる。 (i) 位置キャンバスと位置整合トークンプルーニングによる空間的接地を行う。
MultiID-Benchでは、AnyPhotoはコピーペースト傾向を減らしながらアイデンティティの類似性を改善し、アイデンティティの数が増えるにつれて向上する。
- 参考スコア(独自算出の注目度): 4.078056648158513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-person identity-preserving generation requires binding multiple reference faces to specified locations under a text prompt. Strong identity/layout conditions often trigger copy-paste shortcuts and weaken prompt-driven controllability. We present AnyPhoto, a diffusion-transformer finetuning framework with (i) a RoPE-aligned location canvas plus location-aligned token pruning for spatial grounding, (ii) AdaLN-style identity-adaptive modulation from face-recognition embeddings for persistent identity injection, and (iii) identity-isolated attention to prevent cross-identity interference. Training combines conditional flow matching with an embedding-space face similarity loss, together with reference-face replacement and location-canvas degradations to discourage shortcuts. On MultiID-Bench, AnyPhoto improves identity similarity while reducing copy-paste tendency, with gains increasing as the number of identities grows. AnyPhoto also supports prompt-driven stylization with accurate placement, showing great potential application value.
- Abstract(参考訳): マルチパーソンID保存生成では、テキストプロンプトの下で複数の参照顔を特定の場所にバインドする必要がある。
強いアイデンティティ/レイアウト条件は、しばしばコピーペーストショートカットをトリガーし、プロンプト駆動制御性を弱める。
我々は拡散変換器ファインタニングフレームワークであるAnyPhotoを紹介する。
一 空間接地のための位置整列キャンバス及び位置整列トークンプルーニング
(II)持続的アイデンティティ注入のための顔認識埋め込みからのAdaLNスタイルのアイデンティティ適応変調
三 異性間干渉を防止するため、異性間注意を喚起すること。
トレーニングは条件付きフローマッチングと埋め込み空間の類似性損失を組み合わせ、参照面置換と位置キャンバス劣化を併用することでショートカットを回避している。
MultiID-Benchでは、AnyPhotoはコピーペースト傾向を減らしながらアイデンティティの類似性を改善し、アイデンティティの数が増えるにつれて向上する。
AnyPhotoはプロンプト駆動のスタイリングもサポートしており、正確な配置が可能である。
関連論文リスト
- Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement [54.199726425201895]
大規模モデルのマルチモーダル編集は、様々なタスクにまたがる強力な編集機能を示している。
現在の顔認証保存法は、顔認証と編集済み要素IPの整合性回復に苦慮している。
そこで我々は,頑健なアイデンティティ特異的顔復元のためのアライメント・ディスタングルメント・アンタングルメント・フレームワークであるEditedIDを提案する。
論文 参考訳(メタデータ) (2026-02-21T08:24:42Z) - Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization [55.29071072675132]
顔の匿名化は、非同一性属性を保持しながら、識別情報を隠蔽することを目的としている。
トレーニング中心の匿名化フレームワークである textbfIDsuperscript2Face を提案する。
IDtextsuperscript2Faceは、視覚的品質、アイデンティティの抑制、ユーティリティ保存において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-28T09:28:12Z) - WithAnyone: Towards Controllable and ID Consistent Image Generation [83.55786496542062]
アイデンティティ・一貫性・ジェネレーションは、テキスト・ツー・イメージ研究において重要な焦点となっている。
マルチパーソンシナリオに適した大規模ペアデータセットを開発する。
本稿では,データと多様性のバランスをとるためにペアデータを活用する,対照的なアイデンティティ損失を持つ新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:54Z) - Personalized Face Super-Resolution with Identity Decoupling and Fitting [50.473357681579664]
極端な劣化シナリオでは、重要な属性とID情報が入力画像で著しく失われることが多い。
既存の方法では、そのような条件下で幻覚顔を生成する傾向があり、真のID制約を欠いた復元画像を生成する。
本稿ではIDデカップリング・フィッティング(IDFSR)を用いた新しいFSR手法を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:33:11Z) - Robust ID-Specific Face Restoration via Alignment Learning [14.7430941613282]
本稿では,拡散モデルに基づく新しい顔復元フレームワークであるRobust ID-Specific Face Restoration (RIDFR)を提案する。
RIDFRにはアライメント・ラーニング(Alignment Learning)が組み込まれており、複数の参照からの復元結果を同一のアイデンティティと整合させて、ID非関連顔のセマンティクスの干渉を抑制する。
実験により、我々のフレームワークは最先端の手法よりも優れており、高品質なID固有の結果を高いアイデンティティの忠実度で再現し、強靭性を示す。
論文 参考訳(メタデータ) (2025-07-15T03:16:12Z) - PIDiff: Image Customization for Personalized Identities with Diffusion Models [13.726194815227464]
PIDiff という名前の個人識別テキスト・画像生成のためのファインチューニングに基づく新しい拡散モデルを提案する。
PIDiffは意味的絡み合いを回避し、正確な特徴抽出と局所化を実現する。
論文 参考訳(メタデータ) (2025-05-08T09:26:28Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。