論文の概要: PairEdit: Learning Semantic Variations for Exemplar-based Image Editing
- arxiv url: http://arxiv.org/abs/2506.07992v1
- Date: Mon, 09 Jun 2025 17:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.09962
- Title: PairEdit: Learning Semantic Variations for Exemplar-based Image Editing
- Title(参考訳): PairEdit: 例による画像編集のための意味的変分学習
- Authors: Haoguang Lu, Jiacheng Chen, Zhenguo Yang, Aurele Tohokantche Gnanha, Fu Lee Wang, Li Qing, Xudong Mao,
- Abstract要約: PairEditは、限られた画像対や単一の画像対から複雑な編集セマンティクスを学習するための新しいビジュアル編集手法である。
誘導方向項を用いて、ペア画像内の意味的変動を明示的にモデル化するターゲットノイズ予測を提案する。
また,コンテンツから意味変化の学習を遠ざけるために,異なるLoRAを最適化することを提案する。
- 参考スコア(独自算出の注目度): 11.980283011641752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in text-guided image editing have achieved notable success by leveraging natural language prompts for fine-grained semantic control. However, certain editing semantics are challenging to specify precisely using textual descriptions alone. A practical alternative involves learning editing semantics from paired source-target examples. Existing exemplar-based editing methods still rely on text prompts describing the change within paired examples or learning implicit text-based editing instructions. In this paper, we introduce PairEdit, a novel visual editing method designed to effectively learn complex editing semantics from a limited number of image pairs or even a single image pair, without using any textual guidance. We propose a target noise prediction that explicitly models semantic variations within paired images through a guidance direction term. Moreover, we introduce a content-preserving noise schedule to facilitate more effective semantic learning. We also propose optimizing distinct LoRAs to disentangle the learning of semantic variations from content. Extensive qualitative and quantitative evaluations demonstrate that PairEdit successfully learns intricate semantics while significantly improving content consistency compared to baseline methods. Code will be available at https://github.com/xudonmao/PairEdit.
- Abstract(参考訳): 近年のテキスト誘導画像編集の進歩は、自然言語のプロンプトを微粒なセマンティックコントロールに活用することで顕著な成功を収めている。
しかし、特定の編集意味論は、テキスト記述だけで正確に指定することは困難である。
実用的な選択肢は、ペア化されたソースターゲットの例からセマンティクスを学習することである。
既存の例ベースの編集方法は、ペア化された例の変更を記述したり、暗黙的なテキストベースの編集命令を学習したりするテキストプロンプトに依存している。
本稿では,テキスト指導を使わずに,限られた画像対や単一の画像対から複雑な編集意味を効果的に学習する新しいビジュアル編集手法であるPairEditを紹介する。
誘導方向項を用いて、ペア画像内の意味的変動を明示的にモデル化するターゲットノイズ予測を提案する。
さらに,より効果的なセマンティック学習を支援するために,コンテンツ保存型ノイズスケジュールを導入する。
また,コンテンツから意味変化の学習を遠ざけるために,異なるLoRAを最適化することを提案する。
大規模な質的・定量的評価は、PairEditが複雑なセマンティクスを学習するのに成功し、ベースライン法に比べてコンテンツの一貫性を著しく改善したことを示している。
コードはhttps://github.com/xudonmao/PairEdit.comから入手できる。
関連論文リスト
- Instructing Text-to-Image Diffusion Models via Classifier-Guided Semantic Optimization [48.38187112651368]
本稿では,属性分類器によって導かれるセマンティック埋め込みを最適化し,テキストと画像のモデルを所望の編集に向けて操る手法を提案する。
本手法は,データ領域にまたがる高レベルの絡み合いと強い一般化を実現する。
論文 参考訳(メタデータ) (2025-05-20T12:07:01Z) - PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の77~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。
これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文 参考訳(メタデータ) (2024-12-30T16:56:44Z) - AdapEdit: Spatio-Temporal Guided Adaptive Editing Algorithm for
Text-Based Continuity-Sensitive Image Editing [24.9487669818162]
本稿では,適応的な画像編集を実現するための時間的ガイド付き適応編集アルゴリズムAdapEditを提案する。
我々のアプローチは、モデルの事前保存において大きな利点があり、モデルトレーニング、微調整された追加データ、最適化を必要としない。
提案手法は,様々な原画像や編集命令を対象とし,競争性能を実証し,従来の手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2023-12-13T09:45:58Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Visual Instruction Inversion: Image Editing via Visual Prompting [34.96778567507126]
本稿では,視覚的プロンプトによる画像編集手法を提案する。
テキストと画像の拡散モデルのリッチで事前訓練された編集機能を利用して、視覚的なプロンプトを編集命令に反転させる。
論文 参考訳(メタデータ) (2023-07-26T17:50:10Z) - CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing [22.40686064568406]
提案するCLIPInverterは,複数属性の変更を効率よく,かつ確実に行うことのできる,テキスト駆動型画像編集手法である。
本手法は,人間の顔,猫,鳥など,さまざまな領域における操作精度とフォトリアリズムにおいて,競合するアプローチよりも優れる。
論文 参考訳(メタデータ) (2023-07-17T11:29:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。