論文の概要: EditIDv2: Editable ID Customization with Data-Lubricated ID Feature Integration for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2509.05659v1
- Date: Sat, 06 Sep 2025 09:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.635764
- Title: EditIDv2: Editable ID Customization with Data-Lubricated ID Feature Integration for Text-to-Image Generation
- Title(参考訳): EditIDv2: テキスト・画像生成のためのData-Lubricated ID機能統合による編集可能なIDカスタマイズ
- Authors: Guandong Li, Zhaobin Chu,
- Abstract要約: EditIDv2は、高複雑さの物語シーンと長いテキスト入力用に特別に設計されたチューニング不要のソリューションである。
複雑な物語環境において、少量のデータ潤滑だけでアイデンティティの整合性を保ちながら、深いマルチレベルのセマンティック編集を実現する。
- 参考スコア(独自算出の注目度): 10.474377498273205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose EditIDv2, a tuning-free solution specifically designed for high-complexity narrative scenes and long text inputs. Existing character editing methods perform well under simple prompts, but often suffer from degraded editing capabilities, semantic understanding biases, and identity consistency breakdowns when faced with long text narratives containing multiple semantic layers, temporal logic, and complex contextual relationships. In EditID, we analyzed the impact of the ID integration module on editability. In EditIDv2, we further explore and address the influence of the ID feature integration module. The core of EditIDv2 is to discuss the issue of editability injection under minimal data lubrication. Through a sophisticated decomposition of PerceiverAttention, the introduction of ID loss and joint dynamic training with the diffusion model, as well as an offline fusion strategy for the integration module, we achieve deep, multi-level semantic editing while maintaining identity consistency in complex narrative environments using only a small amount of data lubrication. This meets the demands of long prompts and high-quality image generation, and achieves excellent results in the IBench evaluation.
- Abstract(参考訳): 複雑な物語シーンや長いテキスト入力に特化して設計された,チューニング不要なソリューションであるEditIDv2を提案する。
既存の文字編集手法は単純なプロンプトではうまく機能するが、複数の意味層、時間論理、複雑な文脈関係を含む長文の物語に直面した際、劣化した編集能力、意味的理解のバイアス、アイデンティティの一貫性の低下に悩まされることが多い。
EditIDでは,ID統合モジュールが編集性に与える影響を分析した。
EditIDv2では、ID機能統合モジュールの影響をさらに調査し、対処する。
EditIDv2の中核は、最小限のデータ潤滑下での編集可能性注入の問題について議論することである。
PerceiverAttentionの洗練された分解、ID損失の導入、拡散モデルによる共同動的トレーニング、および統合モジュールのオフライン融合戦略により、少量のデータ潤滑だけで複雑な物語環境におけるアイデンティティの整合性を維持しつつ、深いマルチレベルセマンティック編集を実現する。
これにより、長いプロンプトと高品質な画像生成の要求を満たすことができ、IBench評価において優れた結果が得られる。
関連論文リスト
- InComeS: Integrating Compression and Selection Mechanisms into LLMs for Efficient Model Editing [77.47790551485721]
In-context Learningは、コンテキストエンコーディングを通じて編集情報を解釈することで、有望な編集方法である。
この方法は、大きな言語モデルの限られたコンテキストウィンドウによって制約される。
編集コンテキストの処理能力を向上させるフレキシブルなフレームワークであるInComeSを提案する。
論文 参考訳(メタデータ) (2025-05-28T09:20:18Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - EditID: Training-Free Editable ID Customization for Text-to-Image Generation [12.168520751389622]
テキストから画像生成まで高度に編集可能なカスタマイズIDを実現するための,DiTアーキテクチャに基づくトレーニング不要のアプローチであるEditIDを提案する。
プロンプトを通じて顔の向き、文字属性、その他の特徴を変更することは困難である。
EditIDは、DiTアーキテクチャ上でカスタマイズ可能なID編集性を提案する最初のテキスト・ツー・イメージソリューションである。
論文 参考訳(メタデータ) (2025-03-16T14:41:30Z) - FlexiEdit: Frequency-Aware Latent Refinement for Enhanced Non-Rigid Editing [22.308638156328968]
DDIMはオリジナルのイメージのキー機能とレイアウトを維持するのに不可欠であり、制限に大きく貢献する。
DDIMラテントを精錬することでテキストプロンプト入力の忠実度を向上させるFlexiEditを導入する。
本手法は画像編集,特に複雑な非剛性編集における顕著な進歩を示す。
論文 参考訳(メタデータ) (2024-07-25T08:07:40Z) - CustAny: Customizing Anything from A Single Example [73.90939022698399]
10kカテゴリにわたる315kのテキストイメージサンプルを特徴とする,汎用オブジェクトの大規模なデータセットを構築するための新しいパイプラインを提案する。
MC-IDCの助けを借りて、汎用オブジェクトの柔軟なテキスト編集をサポートするゼロショットフレームワークであるCustomizing Anything (CustAny)を紹介した。
当社のコントリビューションには、大規模なデータセット、CustAnyフレームワーク、新しいID処理などが含まれています。
論文 参考訳(メタデータ) (2024-06-17T15:26:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。