論文の概要: Edge-Aware Image Manipulation via Diffusion Models with a Novel Structure-Preservation Loss
- arxiv url: http://arxiv.org/abs/2601.16645v1
- Date: Fri, 23 Jan 2026 11:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.644529
- Title: Edge-Aware Image Manipulation via Diffusion Models with a Novel Structure-Preservation Loss
- Title(参考訳): 新たな構造保存損失を有する拡散モデルによるエッジ認識画像操作
- Authors: Minsu Gong, Nuri Ryu, Jungseul Ok, Sunghyun Cho,
- Abstract要約: 入力画像と編集画像の間の構造的差異を定量化する新しい構造保存損失(SPL)を提案する。
我々は,SPLを拡散モデルの生成過程に直接統合し,構造的忠実性を確保する。
実験により、SPLは構造的忠実性を高め、潜伏拡散に基づく画像編集における最先端のパフォーマンスを提供する。
- 参考スコア(独自算出の注目度): 32.26030534230571
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in image editing leverage latent diffusion models (LDMs) for versatile, text-prompt-driven edits across diverse tasks. Yet, maintaining pixel-level edge structures-crucial for tasks such as photorealistic style transfer or image tone adjustment-remains as a challenge for latent-diffusion-based editing. To overcome this limitation, we propose a novel Structure Preservation Loss (SPL) that leverages local linear models to quantify structural differences between input and edited images. Our training-free approach integrates SPL directly into the diffusion model's generative process to ensure structural fidelity. This core mechanism is complemented by a post-processing step to mitigate LDM decoding distortions, a masking strategy for precise edit localization, and a color preservation loss to preserve hues in unedited areas. Experiments confirm SPL enhances structural fidelity, delivering state-of-the-art performance in latent-diffusion-based image editing. Our code will be publicly released at https://github.com/gongms00/SPL.
- Abstract(参考訳): 画像編集の最近の進歩は、多彩なテキストプロンプト駆動編集のための潜在拡散モデル(LDM)を活用している。
しかし、画素レベルのエッジ構造を維持することは、遅延拡散に基づく編集の課題として、フォトリアリスティックなスタイル転送や画像トーン調整といったタスクに必須である。
この制限を克服するために、局所線形モデルを利用して入力画像と編集画像の間の構造的差異を定量化する新しい構造保存損失(SPL)を提案する。
我々は,SPLを拡散モデルの生成過程に直接統合し,構造的忠実性を確保する。
このコア機構は、LCMデコード歪みを軽減するための後処理ステップ、正確な編集ローカライゼーションのためのマスキング戦略、および未編集領域におけるヒューを保存するための色保存損失によって補完される。
実験により、SPLは構造的忠実性を高め、潜伏拡散に基づく画像編集における最先端のパフォーマンスを提供する。
私たちのコードはhttps://github.com/gongms00/SPLで公開されます。
関連論文リスト
- X-Edit: Detecting and Localizing Edits in Images Altered by Text-Guided Diffusion Models [3.610796534465868]
実験結果から,X-Editはテキスト誘導拡散モデルによって修正された画像の編集を正確にローカライズすることが示された。
これは、高度な画像編集技術によって導入された操作を検出し、ピンポイントする堅牢な法医学ツールとしてのX-Editの可能性を強調している。
論文 参考訳(メタデータ) (2025-05-16T23:29:38Z) - Anchor Token Matching: Implicit Structure Locking for Training-free AR Image Editing [60.102602955261084]
Implicit Structure Locking (ISLock)は、ARビジュアルモデルのためのトレーニング不要な編集戦略である。
本手法は,自己注意パターンと参照画像とを動的にアライメントすることで,構造的青写真を保存する。
我々の研究は、ARベースの画像編集を効率的かつ柔軟なものにする方法を開拓し、拡散と自己回帰生成モデルのパフォーマンスギャップをさらに埋めることに成功した。
論文 参考訳(メタデータ) (2025-04-14T17:25:19Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Guide-and-Rescale: Self-Guidance Mechanism for Effective Tuning-Free Real Image Editing [42.73883397041092]
本稿では,誘導機構による拡散サンプリングプロセスの修正に基づく新しい手法を提案する。
本研究では,入力画像の全体構造を保存するための自己誘導手法について検討する。
本稿では,人間の評価と定量的分析を通じて,提案手法が望ましい編集を可能にすることを示す。
論文 参考訳(メタデータ) (2024-09-02T15:21:46Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - BARET : Balanced Attention based Real image Editing driven by
Target-text Inversion [36.59406959595952]
本研究では, 微調整拡散モデルを用いずに, 非剛性編集を含む様々な編集タイプに対して, 入力画像とターゲットテキストのみを必要とする新しい編集手法を提案する。
I)ターゲットテキストインバージョン・スケジュール(TTIS)は、画像キャプションや収束の加速なしに高速な画像再構成を実現するために、入力対象のテキスト埋め込みを微調整するように設計されている; (II)プログレッシブ・トランジション・スキームは、ターゲットのテキスト埋め込みとその微調整バージョンの間の進行線形アプローチを適用し、非剛性編集能力を維持するための遷移埋め込みを生成する; (III) バランスド・アテンション・モジュール(BAM)は、テキスト記述と画像意味論のトレードオフをバランスさせる。
論文 参考訳(メタデータ) (2023-12-09T07:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。