論文の概要: Delta-Adapter: Scalable Exemplar-Based Image Editing with Single-Pair Supervision
- arxiv url: http://arxiv.org/abs/2605.07940v1
- Date: Fri, 08 May 2026 16:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.189537
- Title: Delta-Adapter: Scalable Exemplar-Based Image Editing with Single-Pair Supervision
- Title(参考訳): Delta-Adapter:シングルペアスーパービジョンによるスケーラブルな例ベースの画像編集
- Authors: Jiacheng Chen, Songze Li, Han Fu, Baoquan Zhao, Wei Liu, Yanyan Liang, Li Qing, Xudong Mao,
- Abstract要約: 既存の手法はペア・オブ・ペアの監視パラダイムに依存している。
本稿では,単一ペア監視下での移動可能な編集セマンティクスを学習するDelta-Adapterを提案する。
- 参考スコア(独自算出の注目度): 39.983456878703855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exemplar-based image editing applies a transformation defined by a source-target image pair to a new query image. Existing methods rely on a pair-of-pairs supervision paradigm, requiring two image pairs sharing the same edit semantics to learn the target transformation. This constraint makes training data difficult to curate at scale and limits generalization across diverse edit types. We propose Delta-Adapter, a method that learns transferable editing semantics under single-pair supervision, requiring no textual guidance. Rather than directly exposing the exemplar pair to the model, we leverage a pre-trained vision encoder to extract a semantic delta that encodes the visual transformation between the two images. This semantic delta is injected into a pre-trained image editing model via a Perceiver-based adapter. Since the target image is never directly visible to the model, it can serve as the prediction target, enabling single-pair supervision without requiring additional exemplar pairs. This formulation allows us to leverage existing large-scale editing datasets for training. To further promote faithful transformation transfer, we introduce a semantic delta consistency loss that aligns the semantic change of the generated output with the ground-truth semantic delta extracted from the exemplar pair. Extensive experiments demonstrate that Delta-Adapter consistently improves both editing accuracy and content consistency over four strong baselines on seen editing tasks, while also generalizing more effectively to unseen editing tasks. Code will be available at https://delta-adapter.github.io.
- Abstract(参考訳): 例ベースの画像編集は、ソースターゲットイメージペアによって定義された変換を新しいクエリイメージに適用する。
既存の手法はペア対の監視パラダイムに依存しており、2つのイメージペアが同じ編集セマンティクスを共有してターゲット変換を学ぶ必要がある。
この制約により、トレーニングデータを大規模にキュレートすることが難しくなり、さまざまな編集タイプにまたがる一般化が制限される。
本研究では,一対の監督下での移動可能な編集セマンティクスを学習し,テキストによるガイダンスを必要としないDelta-Adapterを提案する。
モデルに模範対を直接露光する代わりに、事前学習された視覚エンコーダを用いて、2つの画像間の視覚変換を符号化するセマンティックデルタを抽出する。
このセマンティックデルタは、Perceiverベースのアダプタを介してトレーニング済みの画像編集モデルに注入される。
対象画像がモデルに直接見えることはないため、予測対象として機能し、一対の監視が不要になる。
この定式化により、既存の大規模編集データセットをトレーニングに活用することができる。
さらに忠実な変換伝達を促進するために、生成した出力のセマンティックな変化を、模範対から抽出した接地トラスなセマンティック・デルタと整合させるセマンティック・デルタ整合性損失を導入する。
広範な実験により、Delta-Adapterは、表示されない編集タスクをより効果的に一般化しつつ、4つの強力なベースラインに対して、編集精度とコンテンツ一貫性の両方を一貫して改善することを示した。
コードはhttps://delta-adapter.github.ioで公開される。
関連論文リスト
- EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - RelationAdapter: Learning and Transferring Visual Relation with Diffusion Transformers [23.062860374441218]
本稿では、ソースターゲット画像のペアを利用して、新規なクエリ画像に対するコンテンツ認識編集意図を抽出し、転送する。
本稿では、Diffusion Transformer(DiT)ベースのモデルで視覚変換を効果的にキャプチャし、適用できる軽量モジュールであるRelationAdapterを紹介する。
Relation252Kの実験では、RelationAdapterはモデルの編集意図を理解し、転送する能力を大幅に改善し、生成品質と全体的な編集性能が顕著に向上した。
論文 参考訳(メタデータ) (2025-06-03T07:06:35Z) - UIP2P: Unsupervised Instruction-based Image Editing via Edit Reversibility Constraint [87.20985852686785]
本研究では,教師なし指導に基づく画像編集手法を提案する。
本稿では,編集可逆性制約 (ERC) と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
これにより、地道に編集されたイメージの必要性を回避し、実際のイメージキャプチャペアまたはイメージキャプチャインストラクショントリプルからなるデータセットで、初めてトレーニングをアンロックすることが可能になります。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Eliminating Contextual Prior Bias for Semantic Image Editing via
Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文 参考訳(メタデータ) (2023-02-05T14:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。