論文の概要: Multi-turn Consistent Image Editing
- arxiv url: http://arxiv.org/abs/2505.04320v1
- Date: Wed, 07 May 2025 11:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.048459
- Title: Multi-turn Consistent Image Editing
- Title(参考訳): マルチターン一貫性画像編集
- Authors: Zijun Zhou, Yingying Deng, Xiangyu He, Weiming Dong, Fan Tang,
- Abstract要約: ユーザが反復的に編集を洗練できるマルチターン画像編集フレームワークを提案する。
提案手法は, 高精度な画像インバージョンのためのフローマッチングと, 安定サンプリングのための2目的線形二次レギュレータ (LQR) を利用する。
本フレームワークは,既存の手法に比べて編集成功率と視覚的忠実度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 23.195620233753957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world applications, such as interactive photo retouching, artistic content creation, and product design, require flexible and iterative image editing. However, existing image editing methods primarily focus on achieving the desired modifications in a single step, which often struggles with ambiguous user intent, complex transformations, or the need for progressive refinements. As a result, these methods frequently produce inconsistent outcomes or fail to meet user expectations. To address these challenges, we propose a multi-turn image editing framework that enables users to iteratively refine their edits, progressively achieving more satisfactory results. Our approach leverages flow matching for accurate image inversion and a dual-objective Linear Quadratic Regulators (LQR) for stable sampling, effectively mitigating error accumulation. Additionally, by analyzing the layer-wise roles of transformers, we introduce a adaptive attention highlighting method that enhances editability while preserving multi-turn coherence. Extensive experiments demonstrate that our framework significantly improves edit success rates and visual fidelity compared to existing methods.
- Abstract(参考訳): インタラクティブな写真リタッチ、アートコンテンツ作成、製品デザインなど、多くの現実世界のアプリケーションでは、フレキシブルで反復的な画像編集が必要である。
しかし、既存の画像編集手法は主に、ユーザの意図の曖昧さや複雑な変換、進歩的な改善の必要性に苦しむ、単一のステップで望ましい修正を達成することに焦点を当てている。
その結果、これらの手法は不整合の結果をしばしば生み出すか、ユーザの期待を満たさないかのどちらかである。
これらの課題に対処するために,ユーザが反復的に編集を洗練し,徐々に満足な結果が得られるマルチターン画像編集フレームワークを提案する。
提案手法は, 精度の高い画像インバージョンのためのフローマッチングと, 安定サンプリングのための二目的線形二次レギュレータ (LQR) を活用し, 誤差蓄積を効果的に軽減する。
さらに,変換器の階層的役割を解析することにより,多ターンコヒーレンスを保ちながら編集性を高める適応的注目強調手法を提案する。
大規模な実験により、我々のフレームワークは既存の方法と比較して編集成功率と視覚的忠実度を著しく改善することが示された。
関連論文リスト
- Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - Pathways on the Image Manifold: Image Editing via Video Generation [11.891831122571995]
我々は、事前訓練されたビデオモデルを用いて、画像編集を時間的プロセスとして再構成し、元の画像から所望の編集へのスムーズな遷移を生成する。
提案手法は,テキストベースの画像編集における最先端の成果を達成し,編集精度と画像保存の両面で有意な改善を示した。
論文 参考訳(メタデータ) (2024-11-25T16:41:45Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - High-Fidelity Diffusion-based Image Editing [19.85446433564999]
拡散モデルの編集性能は、デノナイジングステップが増加しても、もはや満足できない傾向にある。
本稿では,マルコフ加群が残差特徴を持つ拡散モデル重みを変調するために組み込まれている革新的なフレームワークを提案する。
本稿では,編集過程における誤り伝播の最小化を目的とした新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-25T12:12:36Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。