論文の概要: EditIDv2: Editable ID Customization with Data-Lubricated ID Feature Integration for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2509.05659v1
- Date: Sat, 06 Sep 2025 09:29:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.635764
- Title: EditIDv2: Editable ID Customization with Data-Lubricated ID Feature Integration for Text-to-Image Generation
- Title(参考訳): EditIDv2: テキスト・画像生成のためのData-Lubricated ID機能統合による編集可能なIDカスタマイズ
- Authors: Guandong Li, Zhaobin Chu,
- Abstract要約: EditIDv2は、高複雑さの物語シーンと長いテキスト入力用に特別に設計されたチューニング不要のソリューションである。
複雑な物語環境において、少量のデータ潤滑だけでアイデンティティの整合性を保ちながら、深いマルチレベルのセマンティック編集を実現する。
- 参考スコア(独自算出の注目度): 10.474377498273205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose EditIDv2, a tuning-free solution specifically designed for high-complexity narrative scenes and long text inputs. Existing character editing methods perform well under simple prompts, but often suffer from degraded editing capabilities, semantic understanding biases, and identity consistency breakdowns when faced with long text narratives containing multiple semantic layers, temporal logic, and complex contextual relationships. In EditID, we analyzed the impact of the ID integration module on editability. In EditIDv2, we further explore and address the influence of the ID feature integration module. The core of EditIDv2 is to discuss the issue of editability injection under minimal data lubrication. Through a sophisticated decomposition of PerceiverAttention, the introduction of ID loss and joint dynamic training with the diffusion model, as well as an offline fusion strategy for the integration module, we achieve deep, multi-level semantic editing while maintaining identity consistency in complex narrative environments using only a small amount of data lubrication. This meets the demands of long prompts and high-quality image generation, and achieves excellent results in the IBench evaluation.
- Abstract(参考訳): 複雑な物語シーンや長いテキスト入力に特化して設計された,チューニング不要なソリューションであるEditIDv2を提案する。
既存の文字編集手法は単純なプロンプトではうまく機能するが、複数の意味層、時間論理、複雑な文脈関係を含む長文の物語に直面した際、劣化した編集能力、意味的理解のバイアス、アイデンティティの一貫性の低下に悩まされることが多い。
EditIDでは,ID統合モジュールが編集性に与える影響を分析した。
EditIDv2では、ID機能統合モジュールの影響をさらに調査し、対処する。
EditIDv2の中核は、最小限のデータ潤滑下での編集可能性注入の問題について議論することである。
PerceiverAttentionの洗練された分解、ID損失の導入、拡散モデルによる共同動的トレーニング、および統合モジュールのオフライン融合戦略により、少量のデータ潤滑だけで複雑な物語環境におけるアイデンティティの整合性を維持しつつ、深いマルチレベルセマンティック編集を実現する。
これにより、長いプロンプトと高品質な画像生成の要求を満たすことができ、IBench評価において優れた結果が得られる。
関連論文リスト
- Model Editing for New Document Integration in Generative Information Retrieval [110.90609826290968]
生成検索(GR)は文書識別子(docID)の生成として情報検索(IR)タスクを再構成する
既存のGRモデルは、新たに追加されたドキュメントへの一般化が不十分で、しばしば正しいドキュメントIDを生成できない。
DOMEは,GRモデルを非表示文書に効果的かつ効率的に適応する新しい手法である。
論文 参考訳(メタデータ) (2026-03-03T09:13:38Z) - Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement [54.199726425201895]
大規模モデルのマルチモーダル編集は、様々なタスクにまたがる強力な編集機能を示している。
現在の顔認証保存法は、顔認証と編集済み要素IPの整合性回復に苦慮している。
そこで我々は,頑健なアイデンティティ特異的顔復元のためのアライメント・ディスタングルメント・アンタングルメント・フレームワークであるEditedIDを提案する。
論文 参考訳(メタデータ) (2026-02-21T08:24:42Z) - FlexID: Training-Free Flexible Identity Injection via Intent-Aware Modulation for Text-to-Image Generation [10.474377498273205]
意図認識変調を利用した学習自由フレームワークFlexIDを提案する。
本稿では,これらのストリームの重みを動的に変調するコンテキスト認識適応ゲーティング(CAG)機構を提案する。
IBenchの実験では、FlexIDがアイデンティティの一貫性とテキストの一貫性のバランスを達成している。
論文 参考訳(メタデータ) (2026-02-07T13:59:54Z) - Consistency-Aware Editing for Entity-level Unlearning in Language Models [53.522931419965424]
本稿では,エンティティレベルのアンラーニングのための新しい一貫性対応編集(CAE)フレームワークを提案する。
CAEは、その属性、関係、および敵のパラフレーズを含む、ターゲットエンティティに関連する多様なプロンプトの集合を集約する。
次に、一貫性レギュレータによってガイドされる低ランクの更新を共同で学習し、プロンプトをまたいだ編集方向を調整する。
論文 参考訳(メタデータ) (2025-12-19T15:18:07Z) - Zero-shot Face Editing via ID-Attribute Decoupled Inversion [5.695436409400152]
本稿では,ID-Attribute Decoupled Inversionに基づくゼロショット顔編集手法を提案する。
我々は、顔表現をIDと属性の特徴に分解し、それらを共同条件として、逆拡散過程と逆拡散過程の両方を導出する。
本手法は,領域固有の入力を必要とせず,テキストプロンプトのみを用いた複雑な多属性顔編集タスクをサポートし,DDIMインバージョンに匹敵する速度で動作する。
論文 参考訳(メタデータ) (2025-10-13T06:34:40Z) - ID-EA: Identity-driven Text Enhancement and Adaptation with Textual Inversion for Personalized Text-to-Image Generation [33.84646269805187]
ID-EAは、テキストの埋め込みを視覚的アイデンティティの埋め込みに合わせてガイドする新しいフレームワークである。
ID-EAはアイデンティティ保存の指標において最先端の手法を大幅に上回っている。
パーソナライズされた肖像画は、既存のアプローチの15倍の速さで生成される。
論文 参考訳(メタデータ) (2025-07-16T07:42:02Z) - InComeS: Integrating Compression and Selection Mechanisms into LLMs for Efficient Model Editing [77.47790551485721]
In-context Learningは、コンテキストエンコーディングを通じて編集情報を解釈することで、有望な編集方法である。
この方法は、大きな言語モデルの限られたコンテキストウィンドウによって制約される。
編集コンテキストの処理能力を向上させるフレキシブルなフレームワークであるInComeSを提案する。
論文 参考訳(メタデータ) (2025-05-28T09:20:18Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - EditID: Training-Free Editable ID Customization for Text-to-Image Generation [12.168520751389622]
テキストから画像生成まで高度に編集可能なカスタマイズIDを実現するための,DiTアーキテクチャに基づくトレーニング不要のアプローチであるEditIDを提案する。
プロンプトを通じて顔の向き、文字属性、その他の特徴を変更することは困難である。
EditIDは、DiTアーキテクチャ上でカスタマイズ可能なID編集性を提案する最初のテキスト・ツー・イメージソリューションである。
論文 参考訳(メタデータ) (2025-03-16T14:41:30Z) - FlexiEdit: Frequency-Aware Latent Refinement for Enhanced Non-Rigid Editing [22.308638156328968]
DDIMはオリジナルのイメージのキー機能とレイアウトを維持するのに不可欠であり、制限に大きく貢献する。
DDIMラテントを精錬することでテキストプロンプト入力の忠実度を向上させるFlexiEditを導入する。
本手法は画像編集,特に複雑な非剛性編集における顕著な進歩を示す。
論文 参考訳(メタデータ) (2024-07-25T08:07:40Z) - CustAny: Customizing Anything from A Single Example [73.90939022698399]
10kカテゴリにわたる315kのテキストイメージサンプルを特徴とする,汎用オブジェクトの大規模なデータセットを構築するための新しいパイプラインを提案する。
MC-IDCの助けを借りて、汎用オブジェクトの柔軟なテキスト編集をサポートするゼロショットフレームワークであるCustomizing Anything (CustAny)を紹介した。
当社のコントリビューションには、大規模なデータセット、CustAnyフレームワーク、新しいID処理などが含まれています。
論文 参考訳(メタデータ) (2024-06-17T15:26:22Z) - Text Editing by Command [82.50904226312451]
ニューラルテキスト生成における一般的なパラダイムは、単一のステップでテキストを生成するワンショット生成である。
この制限をユーザが既存のテキストを編集するコマンドを発行することでシステムと対話するインタラクティブテキスト生成設定で解決する。
このデータセットに基づいてトレーニングされたトランスフォーマーベースモデルであるInteractive Editorは,ベースラインを上回り,自動評価と人的評価の両方において肯定的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-24T08:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。