論文の概要: ReMix: Towards a Unified View of Consistent Character Generation and Editing
- arxiv url: http://arxiv.org/abs/2510.10156v1
- Date: Sat, 11 Oct 2025 10:31:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.815166
- Title: ReMix: Towards a Unified View of Consistent Character Generation and Editing
- Title(参考訳): ReMix: 一貫性のある文字生成と編集の統一的な視点を目指して
- Authors: Benjia Zhou, Bin Fu, Pei Cheng, Yanru Wang, Jiayuan Fan, Tao Chen,
- Abstract要約: ReMixは、文字一貫性の生成と編集のための統一されたフレームワークである。
ReMixモジュールとIP-ControlNetという2つのコアコンポーネントで構成されている。
ReMixはパーソナライズされた生成、画像編集、スタイル転送、マルチ条件合成など、幅広いタスクをサポートしている。
- 参考スコア(独自算出の注目度): 22.04681457337335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large-scale text-to-image diffusion models (e.g., FLUX.1) have greatly improved visual fidelity in consistent character generation and editing. However, existing methods rarely unify these tasks within a single framework. Generation-based approaches struggle with fine-grained identity consistency across instances, while editing-based methods often lose spatial controllability and instruction alignment. To bridge this gap, we propose ReMix, a unified framework for character-consistent generation and editing. It constitutes two core components: the ReMix Module and IP-ControlNet. The ReMix Module leverages the multimodal reasoning ability of MLLMs to edit semantic features of input images and adapt instruction embeddings to the native DiT backbone without fine-tuning. While this ensures coherent semantic layouts, pixel-level consistency and pose controllability remain challenging. To address this, IP-ControlNet extends ControlNet to decouple semantic and layout cues from reference images and introduces an {\epsilon}-equivariant latent space that jointly denoises the reference and target images within a shared noise space. Inspired by convergent evolution and quantum decoherence,i.e., where environmental noise drives state convergence, this design promotes feature alignment in the hidden space, enabling consistent object generation while preserving identity. ReMix supports a wide range of tasks, including personalized generation, image editing, style transfer, and multi-condition synthesis. Extensive experiments validate its effectiveness and efficiency as a unified framework for character-consistent image generation and editing.
- Abstract(参考訳): 大規模テキスト・画像拡散モデル(FLUX.1)の最近の進歩は、一貫した文字生成と編集において視覚的忠実度を大幅に改善した。
しかし、既存のメソッドは単一のフレームワークでこれらのタスクを統合することは滅多にない。
ジェネレーションベースのアプローチはインスタンス間のきめ細かいアイデンティティ整合性に苦慮する一方、編集ベースの手法では空間制御性や命令アライメントが失われることが多い。
このギャップを埋めるために,文字一貫性の生成と編集のための統合フレームワークであるReMixを提案する。
ReMixモジュールとIP-ControlNetという2つのコアコンポーネントで構成されている。
ReMix ModuleはMLLMのマルチモーダル推論機能を利用して入力画像のセマンティックな特徴を編集し、微調整なしでネイティブのDiTバックボーンに命令を埋め込む。
これによりコヒーレントなセマンティックレイアウトが保証されるが、ピクセルレベルの一貫性とポーズ制御性は依然として困難である。
これを解決するため、IP-ControlNetはControlNetを拡張して、参照画像からセマンティックとレイアウトのキューを分離し、共有ノイズ空間内で参照とターゲットの画像を共同で復調する {\epsilon}-等変ラテント空間を導入している。
収束進化と量子デコヒーレンス(すなわち環境ノイズが状態収束を駆動する)にインスパイアされたこの設計は、隠された空間における特徴的アライメントを促進し、アイデンティティを保ちながら一貫したオブジェクト生成を可能にする。
ReMixはパーソナライズされた生成、画像編集、スタイル転送、マルチ条件合成など、幅広いタスクをサポートしている。
画像生成と編集のための統合フレームワークとしての有効性と効率性を検証する実験が盛んである。
関連論文リスト
- IMAGHarmony: Controllable Image Editing with Consistent Object Quantity and Layout [36.70548378032599]
マルチオブジェクトシーンにおける量とレイアウトの整合性(QL-Edit)について検討した。
我々はIMAGHarmonyについて述べる。IMAGHarmonyは、オブジェクトの個数と位置をモデル化しながら知覚意味論を融合する、プラグアンドプレイ調和認識(HA)モジュールを特徴とするフレームワークである。
また、視覚と言語マッチングを通して意味的に整合した初期雑音を選択するPNS戦略を提案する。
論文 参考訳(メタデータ) (2025-06-02T17:59:09Z) - VMix: Improving Text-to-Image Diffusion Model with Cross-Attention Mixing Control [8.685610154314459]
拡散モデルはテキストから画像生成の素晴らしい才能を示すが、それでも高い美的イメージを生成できない可能性がある。
プラグイン・アンド・プレイの美学アダプタであるVMix Adapterを提案する。
我々の重要な洞察は、優れた条件制御法を設計することで、既存の拡散モデルの美的提示を強化することである。
論文 参考訳(メタデータ) (2024-12-30T08:47:25Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting [56.77074226109392]
本研究では,ユーザ指定領域に対象オブジェクトを挿入できる拡散型フレームワークDreamMixを提案する。
また,DreamMixは,多様なアプリケーション間での属性保存と属性編集のバランスが良好であることを示す。
論文 参考訳(メタデータ) (2024-11-26T08:44:47Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image
Synthesis and Editing [54.712205852602736]
MasaCtrlは、一貫した画像生成と複雑な非剛性画像編集を同時に行うためのチューニング不要な手法である。
具体的には、既存の拡散モデルにおける自己アテンションを相互の自己アテンションに変換することで、ソース画像から相関したローカル内容やテクスチャをクエリして一貫性を実現する。
大規模な実験により、提案したMashoCtrlは、一貫性のある画像生成と複雑な非厳密な実画像編集の両方において、印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-04-17T17:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。