論文の概要: ID-EA: Identity-driven Text Enhancement and Adaptation with Textual Inversion for Personalized Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2507.11990v1
- Date: Wed, 16 Jul 2025 07:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.282584
- Title: ID-EA: Identity-driven Text Enhancement and Adaptation with Textual Inversion for Personalized Text-to-Image Generation
- Title(参考訳): ID-EA:パーソナライズされたテキスト・ツー・イメージ生成のためのテキスト変換によるアイデンティティ駆動型テキスト強調と適応
- Authors: Hyun-Jun Jin, Young-Eun Kim, Seong-Whan Lee,
- Abstract要約: ID-EAは、テキストの埋め込みを視覚的アイデンティティの埋め込みに合わせてガイドする新しいフレームワークである。
ID-EAはアイデンティティ保存の指標において最先端の手法を大幅に上回っている。
パーソナライズされた肖像画は、既存のアプローチの15倍の速さで生成される。
- 参考スコア(独自算出の注目度): 33.84646269805187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, personalized portrait generation with a text-to-image diffusion model has significantly advanced with Textual Inversion, emerging as a promising approach for creating high-fidelity personalized images. Despite its potential, current Textual Inversion methods struggle to maintain consistent facial identity due to semantic misalignments between textual and visual embedding spaces regarding identity. We introduce ID-EA, a novel framework that guides text embeddings to align with visual identity embeddings, thereby improving identity preservation in a personalized generation. ID-EA comprises two key components: the ID-driven Enhancer (ID-Enhancer) and the ID-conditioned Adapter (ID-Adapter). First, the ID-Enhancer integrates identity embeddings with a textual ID anchor, refining visual identity embeddings derived from a face recognition model using representative text embeddings. Then, the ID-Adapter leverages the identity-enhanced embedding to adapt the text condition, ensuring identity preservation by adjusting the cross-attention module in the pre-trained UNet model. This process encourages the text features to find the most related visual clues across the foreground snippets. Extensive quantitative and qualitative evaluations demonstrate that ID-EA substantially outperforms state-of-the-art methods in identity preservation metrics while achieving remarkable computational efficiency, generating personalized portraits approximately 15 times faster than existing approaches.
- Abstract(参考訳): 近年,テキスト・ツー・イメージ拡散モデルによるパーソナライズされたポートレート生成は,テキスト・インバージョンによって大きく進歩し,高忠実なパーソナライズされたイメージを作成するための有望なアプローチとして浮上している。
その可能性にもかかわらず、現在のテクスチュアル・インバージョン法は、アイデンティティに関するテキストと視覚的な埋め込み空間のセマンティックなミスアライメントによって、一貫した顔のアイデンティティを維持するのに苦労している。
テキストの埋め込みを視覚的アイデンティティの埋め込みに合わせるための新しいフレームワークであるID-EAを導入し、パーソナライズされた世代におけるアイデンティティの保存を改善する。
ID-EAは、ID駆動エンハンサー(ID-Enhancer)とID条件アダプタ(ID-Adapter)の2つの重要なコンポーネントから構成される。
第一に、IDエンハンサーはID埋め込みをテキストIDアンカーと統合し、代表的なテキスト埋め込みを使用して顔認識モデルから派生した視覚的アイデンティティ埋め込みを精査する。
次に、ID-Adapterは、ID強化埋め込みを利用してテキスト条件に適応し、事前訓練されたUNetモデルにおけるクロスアテンションモジュールを調整することにより、アイデンティティ保護を確保する。
このプロセスはテキスト機能にフォアグラウンドスニペット全体で最も関連性の高い視覚的手がかりを見つけるよう促す。
大規模な定量的および定性的評価により、ID-EAはアイデンティティ保存の指標における最先端の手法を著しく上回り、計算効率は優れており、パーソナライズされた肖像画は既存の手法の約15倍高速であることが示された。
関連論文リスト
- EditID: Training-Free Editable ID Customization for Text-to-Image Generation [12.168520751389622]
テキストから画像生成まで高度に編集可能なカスタマイズIDを実現するための,DiTアーキテクチャに基づくトレーニング不要のアプローチであるEditIDを提案する。
プロンプトを通じて顔の向き、文字属性、その他の特徴を変更することは困難である。
EditIDは、DiTアーキテクチャ上でカスタマイズ可能なID編集性を提案する最初のテキスト・ツー・イメージソリューションである。
論文 参考訳(メタデータ) (2025-03-16T14:41:30Z) - DynamicID: Zero-Shot Multi-ID Image Personalization with Flexible Facial Editability [12.692129257068085]
シングルIDとマルチIDパーソナライズされた生成を本質的に促進する,チューニング不要なフレームワークであるDynamicIDを提案する。
主なイノベーションは,(1)ID特徴注入時のベースモデルの破壊を最小限に抑えるためのクエリレベルのアクティベーションゲーティング(SAA)と,トレーニング中に複数IDサンプルを必要とせずにマルチIDパーソナライゼーションを実現するためのクエリレベルのアクティベートゲーティングゲーティング(SAA),2)顔の動作とアイデンティティ機能を効果的にアンタングルするために特徴空間操作を適用したID-Motion Reconfigurator(IMR),3)データ依存を減らすタスク分離トレーニングパラダイムであるVariFace-10k(VariFace-10k)である。
論文 参考訳(メタデータ) (2025-03-09T08:16:19Z) - ChatReID: Open-ended Interactive Person Retrieval via Hierarchical Progressive Tuning for Vision Language Models [49.09606704563898]
人物の再識別はコンピュータビジョンにおいて重要な課題であり、重複しないカメラビューを通して個人を認識することを目的としている。
本稿では,テキストを優先した検索パラダイムに焦点を移し,フレキシブルかつインタラクティブな再識別を可能にする新しいフレームワークChatReIDを提案する。
本稿では,人物属性の理解からきめ細かい画像検索,マルチモーダルタスク推論に至るまで,3段階のチューニングを通じてRe-ID能力を実現する階層的プログレッシブチューニング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-27T10:34:14Z) - See What You Seek: Semantic Contextual Integration for Cloth-Changing Person Re-Identification [14.01260112340177]
衣服交換者再識別(CC-ReID)は、衣服の変化にもかかわらず、監視カメラを通して個人をマッチングすることを目的としている。
既存の方法は通常、衣服の変化の影響を軽減するか、アイデンティティ(ID)関連の特徴を強化する。
本稿では,衣服による相違を低減し,IDの質を高めるために,新しいプロンプト学習フレームワークSemantic Contextual Integration(SCI)を提案する。
論文 参考訳(メタデータ) (2024-12-02T10:11:16Z) - CustAny: Customizing Anything from A Single Example [73.90939022698399]
10kカテゴリにわたる315kのテキストイメージサンプルを特徴とする,汎用オブジェクトの大規模なデータセットを構築するための新しいパイプラインを提案する。
MC-IDCの助けを借りて、汎用オブジェクトの柔軟なテキスト編集をサポートするゼロショットフレームワークであるCustomizing Anything (CustAny)を紹介した。
当社のコントリビューションには、大規模なデータセット、CustAnyフレームワーク、新しいID処理などが含まれています。
論文 参考訳(メタデータ) (2024-06-17T15:26:22Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - StableIdentity: Inserting Anybody into Anywhere at First Sight [57.99693188913382]
一つの顔画像で同一性に一貫性のある再テクスチャ化を可能にするStableIdentityを提案する。
私たちは、1つの画像から学んだアイデンティティを直接、微調整なしでビデオ/3D生成に注入する最初の人です。
論文 参考訳(メタデータ) (2024-01-29T09:06:15Z) - PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding [102.07914175196817]
PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。
任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
論文 参考訳(メタデータ) (2023-12-07T17:32:29Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - FaceDancer: Pose- and Occlusion-Aware High Fidelity Face Swapping [62.38898610210771]
そこで我々は,FaceDancerという顔のスワップとID転送のための新しい単一ステージ手法を提案する。
アダプティブ・フィーチャー・フュージョン・アテンション(AFFA)と解釈的特徴類似性規則化(IFSR)の2つの主要なコントリビューションがある。
論文 参考訳(メタデータ) (2022-10-19T11:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。