論文の概要: TweezeEdit: Consistent and Efficient Image Editing with Path Regularization
- arxiv url: http://arxiv.org/abs/2508.10498v1
- Date: Thu, 14 Aug 2025 09:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.267719
- Title: TweezeEdit: Consistent and Efficient Image Editing with Path Regularization
- Title(参考訳): TweezeEdit: 経路正規化による一貫性と効率的な画像編集
- Authors: Jianda Mao, Kaibo Wang, Yang Xiang, Kani Chen,
- Abstract要約: 我々は、一貫性と効率的な画像編集のためのチューニング不要かつ逆変換のないフレームワークであるTweezeEditを提案する。
本手法は, 逆アンカーのみに依存するのではなく, denoising path全体を正規化することで, これらの制約に対処する。
実験では、TweezeEditのセマンティックな保存とターゲットアライメントにおける優れたパフォーマンスを示し、既存の手法よりも優れています。
- 参考スコア(独自算出の注目度): 6.248205481752008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained diffusion models empower users to edit images through text guidance. However, existing methods often over-align with target prompts while inadequately preserving source image semantics. Such approaches generate target images explicitly or implicitly from the inversion noise of the source images, termed the inversion anchors. We identify this strategy as suboptimal for semantic preservation and inefficient due to elongated editing paths. We propose TweezeEdit, a tuning- and inversion-free framework for consistent and efficient image editing. Our method addresses these limitations by regularizing the entire denoising path rather than relying solely on the inversion anchors, ensuring source semantic retention and shortening editing paths. Guided by gradient-driven regularization, we efficiently inject target prompt semantics along a direct path using a consistency model. Extensive experiments demonstrate TweezeEdit's superior performance in semantic preservation and target alignment, outperforming existing methods. Remarkably, it requires only 12 steps (1.6 seconds per edit), underscoring its potential for real-time applications.
- Abstract(参考訳): 大規模な事前学習拡散モデルにより、ユーザーはテキストガイダンスを通じて画像を編集できる。
しかしながら、既存のメソッドは、ソースイメージのセマンティクスを不十分に保存しながら、ターゲットプロンプトと過度に調整することが多い。
このようなアプローチは、インバージョンアンカーと呼ばれるソース画像の逆ノイズから、明示的にまたは暗黙的にターゲット画像を生成する。
我々は,この戦略を,編集経路の延長による意味保存と非効率の亜最適化とみなす。
我々は、一貫性と効率的な画像編集のためのチューニング不要かつ逆変換のないフレームワークであるTweezeEditを提案する。
本手法は,インバージョンアンカーのみに依存するのではなく,記述パス全体を規則化し,ソースのセマンティック保持を確実にし,編集パスを短縮することで,これらの制約に対処する。
勾配駆動型正規化法により、直進経路に沿ったターゲットプロンプトセマンティクスを一貫性モデルを用いて効率的に注入する。
大規模な実験は、TweezeEditのセマンティックな保存とターゲットアライメントにおける優れたパフォーマンスを示し、既存の手法よりも優れています。
注目すべきは、編集に12ステップ(1.6秒)しか必要とせず、リアルタイムアプリケーションの可能性を強調していることだ。
関連論文リスト
- SplitFlow: Flow Decomposition for Inversion-Free Text-to-Image Editing [15.234877788378563]
整流流モデルは, 安定したサンプリング軌道と高忠実度出力により, 画像生成におけるデファクトスタンダードとなっている。
強力な生成能力にもかかわらず、画像編集タスクには限界がある。
近年の取り組みでは、ソースとターゲットの分布を直接ODEベースのアプローチでインバージョンせずにマッピングする試みが行われている。
本稿では,これらの制約に対応するために,インバージョンフリーな定式化に基づくフロー分解・集約フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T21:12:58Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。
編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。
本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文 参考訳(メタデータ) (2025-10-06T17:51:04Z) - AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。
このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。
以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文 参考訳(メタデータ) (2025-06-16T09:42:38Z) - PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing [63.38854614997581]
拡散サンプリングプロセスを制御するために後続のスキームを組み込んだPostEditを導入する。
提案したPostEditは、未編集領域を正確に保存しながら、最先端の編集性能を実現する。
インバージョンもトレーニングも不要で、約1.5秒と18GBのGPUメモリを必要とするため、高品質な結果が得られる。
論文 参考訳(メタデータ) (2024-10-07T09:04:50Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - FastDrag: Manipulate Anything in One Step [20.494157877241665]
本稿では,FastDragというワンステップのドラッグベースの画像編集手法を導入し,編集プロセスの高速化を図る。
この革新は1段階の遅延セマンティック最適化を実現し、編集速度を大幅に向上させる。
私たちのFastDragはDragBenchデータセットで検証されています。
論文 参考訳(メタデータ) (2024-05-24T17:59:26Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。
本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文 参考訳(メタデータ) (2023-05-29T10:48:34Z) - Eliminating Contextual Prior Bias for Semantic Image Editing via
Dual-Cycle Diffusion [35.95513392917737]
Dual-Cycle Diffusionと呼ばれる新しいアプローチは、画像編集をガイドするアンバイアスマスクを生成する。
提案手法の有効性を実証し,D-CLIPスコアを0.272から0.283に改善した。
論文 参考訳(メタデータ) (2023-02-05T14:30:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。