論文の概要: FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing
- arxiv url: http://arxiv.org/abs/2512.11395v1
- Date: Fri, 12 Dec 2025 09:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.710663
- Title: FlowDC: Flow-Based Decoupling-Decay for Complex Image Editing
- Title(参考訳): FlowDC: 複雑な画像編集のためのフローベースデカップリングデカイ
- Authors: Yilei Jiang, Zhen Wang, Yanghao Wang, Jun Yu, Yueting Zhuang, Jun Xiao, Long Chen,
- Abstract要約: 本稿では,複雑な編集を複数のサブ編集エフェクトに分離し,編集プロセス中に並列に重畳するFlowDCを提案する。
FlowDCは既存の方法に比べて優れた結果を示した。
- 参考スコア(独自算出の注目度): 52.54102743380658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the surge of pre-trained text-to-image flow matching models, text-based image editing performance has gained remarkable improvement, especially for \underline{simple editing} that only contains a single editing target. To satisfy the exploding editing requirements, the \underline{complex editing} which contains multiple editing targets has posed as a more challenging task. However, current complex editing solutions: single-round and multi-round editing are limited by long text following and cumulative inconsistency, respectively. Thus, they struggle to strike a balance between semantic alignment and source consistency. In this paper, we propose \textbf{FlowDC}, which decouples the complex editing into multiple sub-editing effects and superposes them in parallel during the editing process. Meanwhile, we observed that the velocity quantity that is orthogonal to the editing displacement harms the source structure preserving. Thus, we decompose the velocity and decay the orthogonal part for better source consistency. To evaluate the effectiveness of complex editing settings, we construct a complex editing benchmark: Complex-PIE-Bench. On two benchmarks, FlowDC shows superior results compared with existing methods. We also detail the ablations of our module designs.
- Abstract(参考訳): 事前訓練されたテキストと画像のフローマッチングモデルの増加により、テキストベースの画像編集性能は著しく向上し、特に単一の編集ターゲットのみを含む \underline{simple editing} では顕著である。
爆発的な編集要件を満たすため、複数の編集ターゲットを含む \underline{complex editing} がより困難なタスクとして提案されている。
しかし、現在の複雑な編集ソリューションであるシングルラウンドとマルチラウンドの編集は、それぞれ長文追従と累積的不整合によって制限されている。
したがって、セマンティックアライメントとソース一貫性のバランスをとるのに苦労する。
本稿では,複雑な編集を複数のサブ編集エフェクトに分離し,編集プロセス中に並列に重畳する「textbf{FlowDC}」を提案する。
一方, 編集変位に直交する速度は, ソース構造に悪影響を及ぼすことがわかった。
このように、速度を分解して直交部を減衰させ、より良いソース整合性を実現する。
複雑な編集設定の有効性を評価するため,複雑な編集ベンチマーク(complex-PIE-Bench)を構築した。
2つのベンチマークでは、FlowDCは既存の方法よりも優れた結果を示している。
モジュール設計の廃止についても詳しく述べています。
関連論文リスト
- h-Edit: Effective and Flexible Diffusion-Based Editing via Doob's h-Transform [13.243229817244275]
h-Editは、テキスト誘導と報酬モデルに基づく編集を同時に行うことができる訓練不要の方法である。
実験の結果,h-Editは編集効率と忠実度において最先端のベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2025-03-04T01:49:59Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。