Fugu-MT 論文翻訳(概要): Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm

論文の概要: Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm

arxiv url: http://arxiv.org/abs/2403.11781v1
Date: Mon, 18 Mar 2024 13:39:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-20 20:19:57.423476
Title: Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm
Title（参考訳）: Infinite-ID: ID-semantics Decoupling Paradigmによるアイデンティティ保存型パーソナライゼーション
Authors: Yi Wu, Ziqiang Li, Heliang Zheng, Chaoyue Wang, Bin Li,
Abstract要約: アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
参考スコア（独自算出の注目度）: 31.06269858216316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Drawing on recent advancements in diffusion models for text-to-image generation, identity-preserved personalization has made significant progress in accurately capturing specific identities with just a single reference image. However, existing methods primarily integrate reference images within the text embedding space, leading to a complex entanglement of image and text information, which poses challenges for preserving both identity fidelity and semantic consistency. To tackle this challenge, we propose Infinite-ID, an ID-semantics decoupling paradigm for identity-preserved personalization. Specifically, we introduce identity-enhanced training, incorporating an additional image cross-attention module to capture sufficient ID information while deactivating the original text cross-attention module of the diffusion model. This ensures that the image stream faithfully represents the identity provided by the reference image while mitigating interference from textual input. Additionally, we introduce a feature interaction mechanism that combines a mixed attention module with an AdaIN-mean operation to seamlessly merge the two streams. This mechanism not only enhances the fidelity of identity and semantic consistency but also enables convenient control over the styles of the generated images. Extensive experimental results on both raw photo generation and style image generation demonstrate the superior performance of our proposed method.
Abstract（参考訳）: テキスト・ツー・イメージ生成のための拡散モデルの最近の進歩を反映して、アイデンティティ保存されたパーソナライゼーションは、単一の参照画像で特定のアイデンティティを正確に把握する上で大きな進歩を遂げた。しかし、既存の手法は、主にテキスト埋め込み空間に参照画像を統合するため、画像とテキスト情報の複雑な絡み合いが生じ、アイデンティティの忠実さとセマンティック一貫性の両立が困難になる。この課題に対処するために、アイデンティティ保存パーソナライゼーションのためのID-セマンティック・デカップリングパラダイムであるInfinite-IDを提案する。具体的には、拡散モデルの元のテキスト・クロス・アテンション・モジュールを非活性化しながら、十分なID情報を取得するために、追加のイメージ・クロス・アテンション・モジュールを組み込んだアイデンティティ・エンハンス・トレーニングを導入する。これにより、画像ストリームは、テキスト入力からの干渉を緩和しつつ、参照画像によって提供されるアイデンティティを忠実に表現することを保証する。さらに,2つのストリームをシームレスにマージするために,混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。このメカニズムは、アイデンティティとセマンティック一貫性の完全性を高めるだけでなく、生成された画像のスタイルを便利に制御できる。原画像生成とスタイル画像生成の双方に対する大規模な実験結果から,提案手法の優れた性能が示された。

関連論文リスト

Training for Identity, Inference for Controllability: A Unified Approach to Tuning-Free Face Personalization [16.851646868288135]
両パラダイムを相乗的に統合する統合チューニングフリーフレームワークであるUniIDを紹介する。私たちの重要な洞察は、これらのアプローチを統合する際には、アイデンティティ関連情報のみを相互に強化する必要があるということです。この原則により、UniIDはフレキシブルテキスト制御性を備えた高忠実な顔のパーソナライゼーションを実現することができる。
論文参考訳（メタデータ） (2025-12-03T16:57:50Z)
Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization [55.29071072675132]
顔の匿名化は、非同一性属性を保持しながら、識別情報を隠蔽することを目的としている。トレーニング中心の匿名化フレームワークである textbfIDsuperscript2Face を提案する。 IDtextsuperscript2Faceは、視覚的品質、アイデンティティの抑制、ユーティリティ保存において、既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-10-28T09:28:12Z)
WithAnyone: Towards Controllable and ID Consistent Image Generation [83.55786496542062]
アイデンティティ・一貫性・ジェネレーションは、テキスト・ツー・イメージ研究において重要な焦点となっている。マルチパーソンシナリオに適した大規模ペアデータセットを開発する。本稿では,データと多様性のバランスをとるためにペアデータを活用する,対照的なアイデンティティ損失を持つ新たなトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2025-10-16T17:59:54Z)
Personalized Face Super-Resolution with Identity Decoupling and Fitting [50.473357681579664]
極端な劣化シナリオでは、重要な属性とID情報が入力画像で著しく失われることが多い。既存の方法では、そのような条件下で幻覚顔を生成する傾向があり、真のID制約を欠いた復元画像を生成する。本稿ではIDデカップリング・フィッティング(IDFSR)を用いた新しいFSR手法を提案する。
論文参考訳（メタデータ） (2025-08-13T02:33:11Z)
ID-EA: Identity-driven Text Enhancement and Adaptation with Textual Inversion for Personalized Text-to-Image Generation [33.84646269805187]
ID-EAは、テキストの埋め込みを視覚的アイデンティティの埋め込みに合わせてガイドする新しいフレームワークである。 ID-EAはアイデンティティ保存の指標において最先端の手法を大幅に上回っている。パーソナライズされた肖像画は、既存のアプローチの15倍の速さで生成される。
論文参考訳（メタデータ） (2025-07-16T07:42:02Z)
Robust ID-Specific Face Restoration via Alignment Learning [18.869593414569206]
本稿では,拡散モデルに基づく新しい顔復元フレームワークであるRobust ID-Specific Face Restoration (RIDFR)を提案する。 RIDFRにはアライメント・ラーニング(Alignment Learning)が組み込まれており、複数の参照からの復元結果を同一のアイデンティティと整合させて、ID非関連顔のセマンティクスの干渉を抑制する。実験により、我々のフレームワークは最先端の手法よりも優れており、高品質なID固有の結果を高いアイデンティティの忠実度で再現し、強靭性を示す。
論文参考訳（メタデータ） (2025-07-15T03:16:12Z)
Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion [35.67333978414322]
本稿では,識別関連特徴と識別非関連特徴の分離を改善する新しい枠組みを提案する。我々のフレームワークは、Implicit-ExplicitフォアグラウンドのデカップリングモジュールとFeature Fusionモジュールの2つの重要なコンポーネントで構成されています。
論文参考訳（メタデータ） (2025-05-28T13:40:46Z)
PIDiff: Image Customization for Personalized Identities with Diffusion Models [13.726194815227464]
PIDiff という名前の個人識別テキスト・画像生成のためのファインチューニングに基づく新しい拡散モデルを提案する。 PIDiffは意味的絡み合いを回避し、正確な特徴抽出と局所化を実現する。
論文参考訳（メタデータ） (2025-05-08T09:26:28Z)
ID-Booth: Identity-consistent Face Generation with Diffusion Models [10.042492056152232]
我々はID-Boothと呼ばれる新しい生成拡散に基づくフレームワークを提案する。このフレームワークは、事前訓練された拡散モデルの合成能力を保ちながら、アイデンティティ一貫性のある画像生成を可能にする。本手法は、画像の多様性を向上しつつ、競合する手法よりもアイデンティティ間の一貫性とアイデンティティ間の分離性を向上する。
論文参考訳（メタデータ） (2025-04-10T02:20:18Z)
Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文参考訳（メタデータ） (2024-09-27T19:31:04Z)
ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文参考訳（メタデータ） (2024-04-23T18:41:56Z)
Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文参考訳（メタデータ） (2024-01-31T11:52:33Z)
When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文参考訳（メタデータ） (2023-11-29T09:05:14Z)
HFORD: High-Fidelity and Occlusion-Robust De-identification for Face Privacy Protection [60.63915939982923]
顔の身元特定は、身元保護問題を解決するための実践的な方法である。既存の顔の特定方法にはいくつかの問題がある。これらの問題に対処するために,HFORD(High-Fidelity and Occlusion-Robust De-identification)法を提案する。
論文参考訳（メタデータ） (2023-11-15T08:59:02Z)
DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。 DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文参考訳（メタデータ） (2023-05-05T09:08:25Z)
FaceDancer: Pose- and Occlusion-Aware High Fidelity Face Swapping [62.38898610210771]
そこで我々は,FaceDancerという顔のスワップとID転送のための新しい単一ステージ手法を提案する。アダプティブ・フィーチャー・フュージョン・アテンション(AFFA)と解釈的特徴類似性規則化(IFSR)の2つの主要なコントリビューションがある。
論文参考訳（メタデータ） (2022-10-19T11:31:38Z)
Learning Disentangled Representation for One-shot Progressive Face Swapping [65.98684203654908]
ジェネレーティブ・アドバーサリアル・ネットワークに基づくワンショット・フェイススワップのためのシンプルで効率的なFaceSwapperを提案する。提案手法は,不整合表現モジュールと意味誘導融合モジュールから構成される。その結果,本手法は,トレーニングサンプルの少ないベンチマークで最先端の結果が得られることがわかった。
論文参考訳（メタデータ） (2022-03-24T11:19:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。