論文の概要: FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing
- arxiv url: http://arxiv.org/abs/2509.22244v3
- Date: Tue, 30 Sep 2025 02:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 12:20:10.375907
- Title: FlashEdit: Decoupling Speed, Structure, and Semantics for Precise Image Editing
- Title(参考訳): FlashEdit: 正確な画像編集のためのスピード、構造、セマンティクスの分離
- Authors: Junyi Wu, Zhiteng Li, Haotong Qin, Xiaohong Liu, Linghe Kong, Yulun Zhang, Xiaokang Yang,
- Abstract要約: FlashEditは、高忠実でリアルタイムな画像編集を可能にするように設計された新しいフレームワークである。
その効率性は,(1)コストのかかる反復プロセスをバイパスするワンステップ・インバージョン・アンド・編集(OSIE)パイプライン,(2)編集領域内でのみ特徴を選択的に修正することで背景保存を保証するバックグラウンドシールド(BG-Shield)技術,(3)背景への意味的漏洩を抑えることで正確な局所的編集を保証するスカラー化空間横断認識(SSCA)機構の3つの重要なイノベーションに由来する。
- 参考スコア(独自算出の注目度): 75.29825659756351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image editing with diffusion models has achieved remarkable quality but suffers from prohibitive latency, hindering real-world applications. We introduce FlashEdit, a novel framework designed to enable high-fidelity, real-time image editing. Its efficiency stems from three key innovations: (1) a One-Step Inversion-and-Editing (OSIE) pipeline that bypasses costly iterative processes; (2) a Background Shield (BG-Shield) technique that guarantees background preservation by selectively modifying features only within the edit region; and (3) a Sparsified Spatial Cross-Attention (SSCA) mechanism that ensures precise, localized edits by suppressing semantic leakage to the background. Extensive experiments demonstrate that FlashEdit maintains superior background consistency and structural integrity, while performing edits in under 0.2 seconds, which is an over 150$\times$ speedup compared to prior multi-step methods. Our code will be made publicly available at https://github.com/JunyiWuCode/FlashEdit.
- Abstract(参考訳): 拡散モデルを用いたテキスト誘導画像編集は、目覚ましい品質を達成したが、禁止的なレイテンシに悩まされ、現実世界のアプリケーションを妨げる。
我々は,高忠実でリアルタイムな画像編集を可能にする新しいフレームワークであるFlashEditを紹介する。
その効率性は,(1)コストのかかる反復プロセスをバイパスするワンステップ・インバージョン・アンド・編集(OSIE)パイプライン,(2)編集領域内でのみ特徴を選択的に修正することで背景保存を保証するバックグラウンドシールド(BG-Shield)技術,(3)背景への意味的漏洩を抑えることで正確な局所的編集を保証するスカラー化空間横断認識(SSCA)機構の3つの重要なイノベーションに由来する。
大規模な実験では、FlashEditはバックグラウンドの一貫性と構造的な整合性を維持しつつ、0.2秒未満で編集を実行する。
私たちのコードはhttps://github.com/JunyiWuCode/FlashEditで公開されます。
関連論文リスト
- FusionEdit: Semantic Fusion and Attention Modulation for Training-Free Image Editing [7.53296048773288]
テキスト誘導画像編集は、ソース画像の同一性を保ちながら、ターゲットプロンプトに従って特定の領域を変更することを目的としている。
最近の手法では、明示的なバイナリマスクを使用して編集を制限しているが、ハードマスク境界はアーティファクトを導入し、編集性を低減する。
我々は,高精度かつ制御可能な編集を実現する訓練不要の画像編集フレームワークFusionEditを提案する。
論文 参考訳(メタデータ) (2026-02-09T14:34:18Z) - RemEdit: Efficient Diffusion Editing with Riemannian Geometry [1.8594036119086927]
RemEditは画像編集のための拡散ベースのフレームワークである。
忠実度を編集するためには、mmbaベースのモジュールとビジョンランゲージモデルからのゴール認識プロンプトエンリッチメントパスを使用する。
さらなる加速のために,タスク固有の注意喚起機構を導入する。
RemEditは従来の最先端の編集フレームワークを超え、50%のプルーニングでリアルタイムのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2026-01-25T17:58:57Z) - SpotEdit: Selective Region Editing in Diffusion Transformers [66.44912649206553]
SpotEditは、修正されたリージョンのみを選択的に更新する、トレーニング不要な拡散編集フレームワークである。
不要な計算を削減し、未修正領域で高い忠実性を維持することにより、SpotEditは効率よく正確な画像編集を実現する。
論文 参考訳(メタデータ) (2025-12-26T14:59:41Z) - Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z) - FastEdit: Fast Text-Guided Single-Image Editing via Semantic-Aware Diffusion Fine-Tuning [34.648413334901164]
我々は,テキストガイドによる高速な単一画像編集手法であるFastEditを紹介した。
FastEditは、編集プロセスを劇的に17秒に加速する。
コンテンツ追加,スタイル転送,バックグラウンド置換,姿勢操作など,有望な編集機能を示す。
論文 参考訳(メタデータ) (2024-08-06T09:16:13Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Move and Act: Enhanced Object Manipulation and Background Integrity for Image Editing [20.01946775715704]
インバージョンと編集という2つの分岐しか持たないチューニング不要な手法を提案する。
このアプローチにより、ユーザはオブジェクトのアクションを同時に編集し、編集されたオブジェクトの生成位置を制御することができる。
印象的な画像編集結果と定量的評価により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-25T08:00:49Z) - FastDrag: Manipulate Anything in One Step [20.494157877241665]
本稿では,FastDragというワンステップのドラッグベースの画像編集手法を導入し,編集プロセスの高速化を図る。
この革新は1段階の遅延セマンティック最適化を実現し、編集速度を大幅に向上させる。
私たちのFastDragはDragBenchデータセットで検証されています。
論文 参考訳(メタデータ) (2024-05-24T17:59:26Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。