論文の概要: EditID: Training-Free Editable ID Customization for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2503.12526v1
- Date: Sun, 16 Mar 2025 14:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:59.807494
- Title: EditID: Training-Free Editable ID Customization for Text-to-Image Generation
- Title(参考訳): EditID: テキスト・ツー・イメージ生成のためのトレーニング不要な編集可能なIDカスタマイズ
- Authors: Guandong Li, Zhaobin Chu,
- Abstract要約: テキストから画像生成まで高度に編集可能なカスタマイズIDを実現するための,DiTアーキテクチャに基づくトレーニング不要のアプローチであるEditIDを提案する。
プロンプトを通じて顔の向き、文字属性、その他の特徴を変更することは困難である。
EditIDは、DiTアーキテクチャ上でカスタマイズ可能なID編集性を提案する最初のテキスト・ツー・イメージソリューションである。
- 参考スコア(独自算出の注目度): 12.168520751389622
- License:
- Abstract: We propose EditID, a training-free approach based on the DiT architecture, which achieves highly editable customized IDs for text to image generation. Existing text-to-image models for customized IDs typically focus more on ID consistency while neglecting editability. It is challenging to alter facial orientation, character attributes, and other features through prompts. EditID addresses this by deconstructing the text-to-image model for customized IDs into an image generation branch and a character feature branch. The character feature branch is further decoupled into three modules: feature extraction, feature fusion, and feature integration. By introducing a combination of mapping features and shift features, along with controlling the intensity of ID feature integration, EditID achieves semantic compression of local features across network depths, forming an editable feature space. This enables the successful generation of high-quality images with editable IDs while maintaining ID consistency, achieving excellent results in the IBench evaluation, which is an editability evaluation framework for the field of customized ID text-to-image generation that quantitatively demonstrates the superior performance of EditID. EditID is the first text-to-image solution to propose customizable ID editability on the DiT architecture, meeting the demands of long prompts and high quality image generation.
- Abstract(参考訳): テキストから画像生成まで高度に編集可能なカスタマイズIDを実現するための,DiTアーキテクチャに基づくトレーニング不要のアプローチであるEditIDを提案する。
カスタマイズされたIDのための既存のテキスト・ツー・イメージモデルは通常、編集性を無視しながらIDの一貫性に重点を置いている。
プロンプトを通じて顔の向き、文字属性、その他の特徴を変更することは困難である。
EditIDは、カスタマイズされたIDのためのテキスト・ツー・イメージ・モデルを画像生成ブランチと文字特徴ブランチに分解することでこの問題に対処する。
キャラクタ機能ブランチはさらに,機能抽出,機能融合,機能統合という,3つのモジュールに分離されている。
マッピング機能とシフト機能の組み合わせを導入し、ID機能統合の強度を制御することで、EditIDはネットワーク奥行きにわたるローカル機能のセマンティック圧縮を実現し、編集可能な機能空間を形成する。
これにより、ID一貫性を維持しつつ、編集可能なIDによる高品質な画像の生成を成功させ、編集IDの優れた性能を定量的に示すカスタマイズIDテキスト画像生成分野の編集可能性評価フレームワークであるIBench評価において優れた結果を得ることができる。
EditIDは、DiTアーキテクチャ上でカスタマイズ可能なID編集性を提案し、長いプロンプトと高品質の画像生成の要求を満たす最初のテキスト・ツー・イメージソリューションである。
関連論文リスト
- DisEnvisioner: Disentangled and Enriched Visual Prompt for Customized Image Generation [22.599542105037443]
DisEnvisionerは、非関連情報をフィルタリングしながら、主観的特徴を効果的に抽出し、強化するための新しいアプローチである。
具体的には、被写体と他の無関係なコンポーネントの特徴を視覚的トークンに効果的に分離し、より正確なカスタマイズを可能にする。
提案手法は,命令応答(予測可能性),ID整合性,推論速度,画像の全体的な品質において,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-02T22:29:14Z) - FlexiEdit: Frequency-Aware Latent Refinement for Enhanced Non-Rigid Editing [22.308638156328968]
DDIMはオリジナルのイメージのキー機能とレイアウトを維持するのに不可欠であり、制限に大きく貢献する。
DDIMラテントを精錬することでテキストプロンプト入力の忠実度を向上させるFlexiEditを導入する。
本手法は画像編集,特に複雑な非剛性編集における顕著な進歩を示す。
論文 参考訳(メタデータ) (2024-07-25T08:07:40Z) - MasterWeaver: Taming Editability and Face Identity for Personalized Text-to-Image Generation [59.13765130528232]
MasterWeaverは、忠実なアイデンティティとフレキシブルな編集性の両方でパーソナライズされた画像を生成するために設計された、テスト時のチューニング不要な手法である。
具体的には、MasterWeaverはエンコーダを採用して、アイデンティティ機能を抽出し、追加のクロスアテンションを通じて画像生成をステアリングする。
同一性を維持しながら編集性を向上させるため,MasterWeaverの編集方向をオリジナルのT2Iモデルと整合させる訓練用編集方向損失を提案する。
論文 参考訳(メタデータ) (2024-05-09T14:42:16Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - IDAdapter: Learning Mixed Features for Tuning-Free Personalization of Text-to-Image Models [31.762112403595612]
IDAdapterは、単一の顔画像からパーソナライズされた画像生成における多様性とアイデンティティの保存を強化する、チューニング不要なアプローチである。
トレーニング期間中、特定のアイデンティティの複数の参照画像から混合した特徴を取り入れ、アイデンティティ関連コンテンツの詳細を充実させる。
論文 参考訳(メタデータ) (2024-03-20T12:13:04Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding [102.07914175196817]
PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。
任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
論文 参考訳(メタデータ) (2023-12-07T17:32:29Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - ManiCLIP: Multi-Attribute Face Manipulation from Text [104.30600573306991]
テキスト記述に基づく新しい多属性顔操作法を提案する。
本手法は,テキスト関連属性の編集を最小限に抑えた自然な顔を生成する。
論文 参考訳(メタデータ) (2022-10-02T07:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。