論文の概要: EditTransfer++: Toward Faithful and Efficient Visual-Prompt-Guided Image Editing
- arxiv url: http://arxiv.org/abs/2605.07455v1
- Date: Fri, 08 May 2026 09:01:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.933875
- Title: EditTransfer++: Toward Faithful and Efficient Visual-Prompt-Guided Image Editing
- Title(参考訳): EditTransfer++: 忠実で効率的なVisual-Prompt-Guidedイメージ編集を目指す
- Authors: Lan Chen, Qi Mao, Yiren Song, Yuchao Gu, Siwei Ma,
- Abstract要約: 本稿では,構造化トレーニングと効率的な条件付けを組み合わせたフレームワークであるEditTransfer++について述べる。
EditTransfer++は,従来の手法よりもはるかに高速な推論で,最先端の視覚的即興忠実性を実現する。
- 参考スコア(独自算出の注目度): 43.64132452334661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual-prompt-guided edit transfer aims to learn image transformations directly from example pairs, offering more precise and controllable editing than purely text-driven approaches. However, existing diffusion transformer-based methods often fail to faithfully reproduce the demonstrated edits due to structural mismatches between the task and the backbone, including a pretrained bias toward textual conditioning and inherent stochastic instability during sampling. To bridge this gap, we present EditTransfer++, a framework that combines progressively structured training with an efficient conditioning scheme to improve both visual prompt faithfulness and inference efficiency. We first mitigate textual dominance with a text-decoupled training strategy that removes text conditioning during fine-tuning, compelling the model to infer transformations solely from visual evidence while still supporting optional text guidance at inference. On top of this visually grounded model, a best-worst contrastive refinement mechanism reshapes the denoising trajectories to suppress unfaithful generations and improve consistency across random seeds. To alleviate the computational bottleneck of high-resolution in-context editing, we further introduce a condition compression and reuse strategy that reduces token redundancy and enables efficient generation of images with a 1024-pixel long edge. Extensive experiments on existing benchmarks and the proposed EditTransfer-Bench show that EditTransfer++ achieves state-of-the-art visual prompt faithfulness with substantially faster inference than prior methods, suggesting a promising direction for scalable prompt-guided image editing and broader visual in-context learning.
- Abstract(参考訳): Visual-prompt-guidedEdit Transferは、サンプルペアから直接イメージ変換を学習することを目的としており、純粋にテキスト駆動のアプローチよりも正確で制御可能な編集を提供する。
しかしながら、既存の拡散トランスフォーマーベースの手法は、テキスト条件付けに対する事前訓練されたバイアスやサンプリング中の固有確率不安定性を含む、タスクとバックボーンの間の構造的ミスマッチによって、デモされた編集を忠実に再現することができないことが多い。
このギャップを埋めるために、私たちは、段階的に構造化されたトレーニングと効率的な条件付けスキームを組み合わせたフレームワークEditTransfer++を提案し、視覚的即興忠実度と推論効率の両方を改善する。
まず、微調整中のテキストコンディショニングを除去するテキスト分離学習戦略によりテキスト優位性を緩和し、推論時にオプションのテキストガイダンスをサポートしながら、視覚的エビデンスからのみ変換を推論するようにモデルを説得する。
この視覚的接地モデルの上に、最強のコントラスト改善機構は、不誠実な世代を抑え、無作為な種子間の一貫性を改善するために、デノベーション軌道に不満を抱く。
さらに,高解像度インコンテキスト編集の計算ボトルネックを軽減するために,トークンの冗長性を低減し,1024ピクセルの長辺を持つ画像の効率的な生成を可能にする条件圧縮・再利用戦略を導入する。
既存のベンチマークとEditTransfer-Benchの広範な実験により、EditTransfer++は従来の手法よりもはるかに高速な推論で最先端のビジュアルプロンプト忠実性を達成し、スケーラブルなプロンプト誘導画像編集とより広範なビジュアルインコンテキスト学習のための有望な方向性を示唆している。
関連論文リスト
- EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - Textualize Visual Prompt for Image Editing via Diffusion Bridge [15.696208035498753]
現在の視覚的プロンプト法は、事前訓練されたテキスト誘導画像・画像生成モデルに依存している。
本稿では,画像間の明示的なモデルに依存しない単一のテキスト・ツー・イメージモデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-07T03:33:22Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。