論文の概要: FlowCycle: Pursuing Cycle-Consistent Flows for Text-based Editing
- arxiv url: http://arxiv.org/abs/2510.20212v1
- Date: Thu, 23 Oct 2025 04:58:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.416726
- Title: FlowCycle: Pursuing Cycle-Consistent Flows for Text-based Editing
- Title(参考訳): FlowCycle: テキストベースの編集のためのサイクル一貫性フロー
- Authors: Yanghao Wang, Zhen Wang, Long Chen,
- Abstract要約: 本研究では,新しいインバージョンフリーかつフローベース編集フレームワークであるFlowCycleを提案する。
本研究では,FlowCycleが最先端手法よりも優れた編集品質と一貫性を実現することを示す。
- 参考スコア(独自算出の注目度): 12.424207508842192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in pre-trained text-to-image flow models have enabled remarkable progress in text-based image editing. Mainstream approaches always adopt a corruption-then-restoration paradigm, where the source image is first corrupted into an ``intermediate state'' and then restored to the target image under the prompt guidance. However, current methods construct this intermediate state in a target-agnostic manner, i.e., they primarily focus on realizing source image reconstruction while neglecting the semantic gaps towards the specific editing target. This design inherently results in limited editability or inconsistency when the desired modifications substantially deviate from the source. In this paper, we argue that the intermediate state should be target-aware, i.e., selectively corrupting editing-relevant contents while preserving editing-irrelevant ones. To this end, we propose FlowCycle, a novel inversion-free and flow-based editing framework that parameterizes corruption with learnable noises and optimizes them through a cycle-consistent process. By iteratively editing the source to the target and recovering back to the source with dual consistency constraints, FlowCycle learns to produce a target-aware intermediate state, enabling faithful modifications while preserving source consistency. Extensive ablations have demonstrated that FlowCycle achieves superior editing quality and consistency over state-of-the-art methods.
- Abstract(参考訳): 事前訓練されたテキスト-画像フローモデルの最近の進歩は、テキストベースの画像編集において顕著な進歩をもたらした。
メインストリームアプローチでは、ソースイメージが最初に‘中間状態’に分解され、その後、インシデントガイダンスの下でターゲットイメージに復元される。
しかし、現在の手法は、ターゲットに依存しない方法でこの中間状態を構築する、すなわち、特定の編集対象に対する意味的ギャップを無視しながら、主にソース画像再構成の実現に焦点を当てている。
この設計は本質的に、所望の修正がソースから著しく逸脱した場合、編集可能性や矛盾が制限される。
本稿では、中間状態はターゲット認識であるべきだ、すなわち、編集非関連コンテンツを保持しながら、編集関連コンテンツを選択的に破壊すべきである、と論じる。
この目的のために、フローCycleは、学習可能なノイズで汚職をパラメータ化し、サイクル一貫性プロセスを通じてそれらを最適化する、新しいインバージョンフリーでフローベースの編集フレームワークである。
FlowCycleは、ターゲットへのソースを反復的に編集し、二重一貫性の制約でソースにリカバリすることで、ターゲットを意識した中間状態の生成を学び、ソースの一貫性を維持しながら忠実な修正を可能にする。
大規模な改善により、FlowCycleは最先端のメソッドよりも優れた編集品質と一貫性を実現することが証明されている。
関連論文リスト
- EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - InstantEdit: Text-Guided Few-Step Image Editing with Piecewise Rectified Flow [19.972879378697215]
本稿では,RectifiedFlowフレームワークに基づくInstantEditと呼ばれる高速テキスト誘導画像編集手法を提案する。
提案手法は,PerRFIと呼ばれる特殊反転戦略を導入することにより,RectifiedFlowのストレートサンプリングトラジェクトリを利用する。
また、インバージョン中に得られた潜伏情報を効果的に再利用し、よりコヒーレントで詳細な再生を容易にする新しい再生法Inversion Latent Injectionを提案する。
論文 参考訳(メタデータ) (2025-08-08T05:38:17Z) - LORE: Latent Optimization for Precise Semantic Control in Rectified Flow-based Image Editing [0.276240219662896]
トレーニング不要で効率的な画像編集手法であるLOREを紹介する。
LOREは逆ノイズを直接最適化し、既存のアプローチの一般化と制御可能性の限界に対処する。
実験の結果,LOREはセマンティックアライメント,画像品質,背景忠実度において,強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-08-05T06:45:04Z) - FlowAlign: Trajectory-Regularized, Inversion-Free Flow-based Image Editing [47.908940130654535]
FlowAlignは、最適な制御ベースの軌道制御による一貫した画像編集のためのインバージョンフリーなフローベースフレームワークである。
我々の終点正規化は、編集プロンプトとのセマンティックアライメントのバランスと、軌道に沿ったソース画像との構造的整合性を示す。
FlowAlignは、ソース保存と編集の制御性の両方において、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-05-29T06:33:16Z) - Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model [60.82962950960996]
拡散遅延最適化を行うチューニング不要なUnifyEditを導入する。
本研究では, 自己注意保持制約(SA)と相互注意アライメント制約(CA)の2つを開発し, テキストアライメントの強化を図る。
提案手法は,様々な編集作業における構造保存とテキストアライメントのバランスを保ち,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-04-08T01:02:50Z) - Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - E4C: Enhance Editability for Text-Based Image Editing by Harnessing Efficient CLIP Guidance [13.535394339438428]
拡散ベースの画像編集は、ソースイメージコンテンツを保存し、新しいコンテンツを生成したり、修正を加えたりする複合プロセスである。
テキストベースのtextbf 編集のための textbfCLIP 誘導によるゼロショット画像編集手法である textbfEnhance textbfEditability を提案する。
論文 参考訳(メタデータ) (2024-03-15T09:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。