論文の概要: Multi-turn Consistent Image Editing
- arxiv url: http://arxiv.org/abs/2505.04320v1
- Date: Wed, 07 May 2025 11:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.048459
- Title: Multi-turn Consistent Image Editing
- Title(参考訳): マルチターン一貫性画像編集
- Authors: Zijun Zhou, Yingying Deng, Xiangyu He, Weiming Dong, Fan Tang,
- Abstract要約: ユーザが反復的に編集を洗練できるマルチターン画像編集フレームワークを提案する。
提案手法は, 高精度な画像インバージョンのためのフローマッチングと, 安定サンプリングのための2目的線形二次レギュレータ (LQR) を利用する。
本フレームワークは,既存の手法に比べて編集成功率と視覚的忠実度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 23.195620233753957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world applications, such as interactive photo retouching, artistic content creation, and product design, require flexible and iterative image editing. However, existing image editing methods primarily focus on achieving the desired modifications in a single step, which often struggles with ambiguous user intent, complex transformations, or the need for progressive refinements. As a result, these methods frequently produce inconsistent outcomes or fail to meet user expectations. To address these challenges, we propose a multi-turn image editing framework that enables users to iteratively refine their edits, progressively achieving more satisfactory results. Our approach leverages flow matching for accurate image inversion and a dual-objective Linear Quadratic Regulators (LQR) for stable sampling, effectively mitigating error accumulation. Additionally, by analyzing the layer-wise roles of transformers, we introduce a adaptive attention highlighting method that enhances editability while preserving multi-turn coherence. Extensive experiments demonstrate that our framework significantly improves edit success rates and visual fidelity compared to existing methods.
- Abstract(参考訳): インタラクティブな写真リタッチ、アートコンテンツ作成、製品デザインなど、多くの現実世界のアプリケーションでは、フレキシブルで反復的な画像編集が必要である。
しかし、既存の画像編集手法は主に、ユーザの意図の曖昧さや複雑な変換、進歩的な改善の必要性に苦しむ、単一のステップで望ましい修正を達成することに焦点を当てている。
その結果、これらの手法は不整合の結果をしばしば生み出すか、ユーザの期待を満たさないかのどちらかである。
これらの課題に対処するために,ユーザが反復的に編集を洗練し,徐々に満足な結果が得られるマルチターン画像編集フレームワークを提案する。
提案手法は, 精度の高い画像インバージョンのためのフローマッチングと, 安定サンプリングのための二目的線形二次レギュレータ (LQR) を活用し, 誤差蓄積を効果的に軽減する。
さらに,変換器の階層的役割を解析することにより,多ターンコヒーレンスを保ちながら編集性を高める適応的注目強調手法を提案する。
大規模な実験により、我々のフレームワークは既存の方法と比較して編集成功率と視覚的忠実度を著しく改善することが示された。
関連論文リスト
- Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。
本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。
さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-23T20:34:43Z) - AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。
このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。
以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文 参考訳(メタデータ) (2025-06-16T09:42:38Z) - Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - Pathways on the Image Manifold: Image Editing via Video Generation [11.891831122571995]
我々は、事前訓練されたビデオモデルを用いて、画像編集を時間的プロセスとして再構成し、元の画像から所望の編集へのスムーズな遷移を生成する。
提案手法は,テキストベースの画像編集における最先端の成果を達成し,編集精度と画像保存の両面で有意な改善を示した。
論文 参考訳(メタデータ) (2024-11-25T16:41:45Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - High-Fidelity Diffusion-based Image Editing [19.85446433564999]
拡散モデルの編集性能は、デノナイジングステップが増加しても、もはや満足できない傾向にある。
本稿では,マルコフ加群が残差特徴を持つ拡散モデル重みを変調するために組み込まれている革新的なフレームワークを提案する。
本稿では,編集過程における誤り伝播の最小化を目的とした新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-25T12:12:36Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。
対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。
我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文 参考訳(メタデータ) (2022-05-03T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。