論文の概要: SpecEdit: Training-Free Acceleration for Diffusion based Image Editing via Semantic Locking
- arxiv url: http://arxiv.org/abs/2605.02152v1
- Date: Mon, 04 May 2026 02:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.107942
- Title: SpecEdit: Training-Free Acceleration for Diffusion based Image Editing via Semantic Locking
- Title(参考訳): SpecEdit: セマンティックロックによる拡散に基づく画像編集のためのトレーニングフリー加速
- Authors: Zhengan Yan, Shikang Zheng, Haoran Qin, Xiaobing Tu, Yinggui Wang, Jiacheng Liu, Jiaxuan Ren, Yuqi Lin, Peiliang Cai, Jinkui Ren, Xiantao Zhang, Linfeng Zhang,
- Abstract要約: SpecEditは、拡散ベースの画像編集に適したトレーニング不要の動的解像度フレームワークである。
Qwen-Image-EditとFLUX.1-Kontext-devの実験では、強い品質を維持しながら、最大10倍と7倍の加速を示す。
- 参考スコア(独自算出の注目度): 12.078069478646057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based image editing offers strong semantic controllability, but remains computationally expensive due to iterative high-resolution denoising over all spatial tokens. Dynamic-resolution sampling reduces this cost by performing early steps at reduced resolution. However, existing approaches prioritize upsampling using low-level heuristics such as edge detection or channel variance, which are weakly aligned with editing semantics and may lead to structural inconsistency. Moreover, spatial regions are often upsampled without verifying whether semantic modification is actually required, resulting in redundant high-resolution computation and accumulated errors. Therefore, we propose SpecEdit, a training-free dynamic-resolution framework tailored for diffusion-based image editing. SpecEdit follows a draft-and-verify scheme: a low-resolution draft first estimates the semantic outcome, after which token-level discrepancies are used to identify edit-relevant tokens for high-resolution denoising, while the remaining tokens stay at a coarse resolution. Experiments on Qwen-Image-Edit and FLUX.1-Kontext-dev demonstrate up to 10x and 7x acceleration, while maintaining strong quality. SpecEdit is complementary to step distillation and other acceleration techniques, achieving up to 13x speedup when combined with existing methods. Our code is in supplementary material and will be released on GitHub.
- Abstract(参考訳): 拡散に基づく画像編集は、強い意味制御性を提供するが、全ての空間トークンに対する反復的な高分解能デノナイジングのため、計算コストは高い。
ダイナミックレゾリューションサンプリングは、このコストを削減された解像度で早期ステップを実行することで削減する。
しかし、既存のアプローチでは、エッジ検出やチャネル分散といった低レベルのヒューリスティックを用いて、編集セマンティクスと弱い整合性を持ち、構造的矛盾につながる可能性があるアップサンプリングを優先している。
さらに、空間領域は、意味的な修正が実際に必要かどうかを検証せずに、しばしばアップサンプリングされるため、冗長な高分解能計算と累積誤差が生じる。
そこで本研究では,拡散に基づく画像編集に適したトレーニング不要な動的解像度フレームワークであるSpecEditを提案する。
SpecEditは、ドラフト・アンド・バリデーションのスキームに従う: 低解像度のドラフトは、まずセマンティックな結果を推定し、その後、トークンレベルの不一致を使用して、高解像度の復号化のために編集関連トークンを識別し、残りのトークンは粗い解像度にとどまる。
Qwen-Image-EditとFLUX.1-Kontext-devの実験では、強い品質を維持しながら、最大10倍と7倍の加速を示す。
SpecEditは蒸留や他の加速技術に補完され、既存の手法と組み合わせると最大13倍のスピードアップが達成される。
私たちのコードは補足的な素材で、GitHubでリリースされます。
関連論文リスト
- SplitFlow: Flow Decomposition for Inversion-Free Text-to-Image Editing [15.234877788378563]
整流流モデルは, 安定したサンプリング軌道と高忠実度出力により, 画像生成におけるデファクトスタンダードとなっている。
強力な生成能力にもかかわらず、画像編集タスクには限界がある。
近年の取り組みでは、ソースとターゲットの分布を直接ODEベースのアプローチでインバージョンせずにマッピングする試みが行われている。
本稿では,これらの制約に対応するために,インバージョンフリーな定式化に基づくフロー分解・集約フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T21:12:58Z) - EditInfinity: Image Editing with Binary-Quantized Generative Models [64.05135380710749]
画像編集のためのバイナリ量子化生成モデルのパラメータ効率適応について検討する。
具体的には、画像編集のためのバイナリ量子化生成モデルであるEmphInfinityを適応させるEditInfinityを提案する。
テキストの修正と画像スタイルの保存を促進させる,効率的かつ効果的な画像反転機構を提案する。
論文 参考訳(メタデータ) (2025-10-23T05:06:24Z) - LORE: Latent Optimization for Precise Semantic Control in Rectified Flow-based Image Editing [0.276240219662896]
トレーニング不要で効率的な画像編集手法であるLOREを紹介する。
LOREは逆ノイズを直接最適化し、既存のアプローチの一般化と制御可能性の限界に対処する。
実験の結果,LOREはセマンティックアライメント,画像品質,背景忠実度において,強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-08-05T06:45:04Z) - Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Object-Centric Diffusion for Efficient Video Editing [64.71639719352636]
拡散ベースのビデオ編集は素晴らしい品質に達している。
このようなソリューションは通常、時間的に整合性のあるフレームを生成するために重いメモリと計算コストを発生させる。
品質を維持しつつ、大幅なスピードアップを可能にする修正を提案する。
論文 参考訳(メタデータ) (2024-01-11T08:36:15Z) - Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。
InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2023-12-07T18:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。