論文の概要: Cora: Correspondence-aware image editing using few step diffusion
- arxiv url: http://arxiv.org/abs/2505.23907v1
- Date: Thu, 29 May 2025 18:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.607214
- Title: Cora: Correspondence-aware image editing using few step diffusion
- Title(参考訳): Cora: 数ステップ拡散を用いた対応認識画像編集
- Authors: Amirhossein Almohammadi, Aryan Mikaeili, Sauradip Nag, Negar Hassanpour, Andrea Tagliasacchi, Ali Mahdavi-Amiri,
- Abstract要約: Coraは、セマンティック対応を通じてソースとターゲットイメージ間のテクスチャと構造を整列する新しい編集フレームワークである。
本手法は, テクスチャとテクスチャを意味的対応によって調整し, 必要な時に新たなコンテンツを生成しながら, 正確なテクスチャ転送を可能にする。
- 参考スコア(独自算出の注目度): 24.85279488158622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image editing is an important task in computer graphics, vision, and VFX, with recent diffusion-based methods achieving fast and high-quality results. However, edits requiring significant structural changes, such as non-rigid deformations, object modifications, or content generation, remain challenging. Existing few step editing approaches produce artifacts such as irrelevant texture or struggle to preserve key attributes of the source image (e.g., pose). We introduce Cora, a novel editing framework that addresses these limitations by introducing correspondence-aware noise correction and interpolated attention maps. Our method aligns textures and structures between the source and target images through semantic correspondence, enabling accurate texture transfer while generating new content when necessary. Cora offers control over the balance between content generation and preservation. Extensive experiments demonstrate that, quantitatively and qualitatively, Cora excels in maintaining structure, textures, and identity across diverse edits, including pose changes, object addition, and texture refinements. User studies confirm that Cora delivers superior results, outperforming alternatives.
- Abstract(参考訳): 画像編集はコンピュータグラフィックス、ビジョン、VFXにおいて重要な課題であり、最近の拡散ベースの手法で高速で高品質な結果が得られる。
しかし、非剛性変形、オブジェクト修正、コンテンツ生成などの重要な構造変化を必要とする編集は、依然として困難である。
既存の数ステップの編集アプローチは、無関係なテクスチャや、ソースイメージ(例えば、ポーズ)のキー属性を保存するのに苦労するようなアーティファクトを生成する。
我々は,これらの制約に対処する新しい編集フレームワークであるColaを紹介し,対応性を考慮したノイズ補正と補間された注意マップを導入する。
本手法は, テクスチャとテクスチャを意味的対応によって調整し, 必要な時に新しいコンテンツを生成しながら, 正確なテクスチャ転送を可能にする。
コーラはコンテンツ生成と保存のバランスを制御している。
大規模な実験では、Coraは構造、テクスチャ、アイデンティティを、ポーズの変化、オブジェクトの追加、テクスチャの洗練を含む様々な編集で維持し、定量的かつ質的に優れていることが示されている。
ユーザ調査では、Coraが優れた結果をもたらし、代替案よりも優れていることが確認されている。
関連論文リスト
- Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Text-to-image Editing by Image Information Removal [19.464349486031566]
原画像から色関連およびテクスチャ関連情報を選択的に消去する画像情報除去モジュール(IIR)を用いたテキスト画像編集モデルを提案する。
CUB、Outdoor Scenes、COCOに関する我々の実験は、編集された画像が以前の作業よりも35%多く好まれていることを示している。
論文 参考訳(メタデータ) (2023-05-27T14:48:05Z) - ReGeneration Learning of Diffusion Models with Rich Prompts for
Zero-Shot Image Translation [8.803251014279502]
大規模なテキスト・ツー・イメージモデルは、多彩で高忠実な画像を合成する素晴らしい能力を示した。
現在のモデルでは、編集プロセス中に元の画像の内容に大きな変更を加えることができる。
画像と画像の拡散モデル(ReDiffuser)における再生学習を提案する。
論文 参考訳(メタデータ) (2023-05-08T12:08:12Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - HairCLIP: Design Your Hair by Text and Reference Image [100.85116679883724]
本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。
画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。
念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。