論文の概要: EEdit : Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing
- arxiv url: http://arxiv.org/abs/2503.10270v1
- Date: Thu, 13 Mar 2025 11:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:48.576779
- Title: EEdit : Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing
- Title(参考訳): 編集 : 効率的な画像編集のための空間的・時間的冗長性の再考
- Authors: Zexuan Yan, Yue Ma, Chang Zou, Wenteng Chen, Qifeng Chen, Linfeng Zhang,
- Abstract要約: 本稿では,効率的な画像編集を実現するためのフレームワークであるEEditを提案する。
実験では、幅広い編集タスクのパフォーマンス低下なしに平均2.46ドルの加速を実証している。
- 参考スコア(独自算出の注目度): 48.05033786803384
- License:
- Abstract: Inversion-based image editing is rapidly gaining momentum while suffering from significant computation overhead, hindering its application in real-time interactive scenarios. In this paper, we rethink that the redundancy in inversion-based image editing exists in both the spatial and temporal dimensions, such as the unnecessary computation in unedited regions and the redundancy in the inversion progress. To tackle these challenges, we propose a practical framework, named EEdit, to achieve efficient image editing. Specifically, we introduce three techniques to solve them one by one. For spatial redundancy, spatial locality caching is introduced to compute the edited region and its neighboring regions while skipping the unedited regions, and token indexing preprocessing is designed to further accelerate the caching. For temporal redundancy, inversion step skipping is proposed to reuse the latent for efficient editing. Our experiments demonstrate an average of 2.46 $\times$ acceleration without performance drop in a wide range of editing tasks including prompt-guided image editing, dragging and image composition. Our codes are available at https://github.com/yuriYanZeXuan/EEdit
- Abstract(参考訳): インバージョンベースの画像編集は、大幅な計算オーバーヘッドに悩まされながら急速に勢いを増し、リアルタイムの対話的なシナリオにおけるその応用を妨げる。
本稿では,非編集領域における不要な計算や反転進行における冗長性など,インバージョンベース画像編集の冗長性は空間的・時間的次元の両方に存在することを再考する。
これらの課題に対処するため,効率的な画像編集を実現するためのEEditという実用的なフレームワークを提案する。
具体的には,3つの解法を1つずつ導入する。
空間冗長性のために、未編集領域をスキップしながら編集領域とその周辺領域を計算するために空間的局所性キャッシュを導入し、さらにキャッシングを加速するためにトークンインデックス化前処理を設計する。
時間的冗長性には、効率的な編集のために潜伏を再利用するために反転ステップスキップが提案されている。
実験では,プロンプト誘導画像編集,ドラッグング,画像合成など,幅広い編集作業において,性能低下のない平均2.46ドルの加速を実証した。
私たちのコードはhttps://github.com/yuriYanZeXuan/EEditで利用可能です。
関連論文リスト
- PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing [63.38854614997581]
拡散サンプリングプロセスを制御するために後続のスキームを組み込んだPostEditを導入する。
提案したPostEditは、未編集領域を正確に保存しながら、最先端の編集性能を実現する。
インバージョンもトレーニングも不要で、約1.5秒と18GBのGPUメモリを必要とするため、高品質な結果が得られる。
論文 参考訳(メタデータ) (2024-10-07T09:04:50Z) - FastEdit: Fast Text-Guided Single-Image Editing via Semantic-Aware Diffusion Fine-Tuning [34.648413334901164]
我々は,テキストガイドによる高速な単一画像編集手法であるFastEditを紹介した。
FastEditは、編集プロセスを劇的に17秒に加速する。
コンテンツ追加,スタイル転送,バックグラウンド置換,姿勢操作など,有望な編集機能を示す。
論文 参考訳(メタデータ) (2024-08-06T09:16:13Z) - FastDrag: Manipulate Anything in One Step [20.494157877241665]
本稿では,FastDragというワンステップのドラッグベースの画像編集手法を導入し,編集プロセスの高速化を図る。
この革新は1段階の遅延セマンティック最適化を実現し、編集速度を大幅に向上させる。
私たちのFastDragはDragBenchデータセットで検証されています。
論文 参考訳(メタデータ) (2024-05-24T17:59:26Z) - Noise Map Guidance: Inversion with Spatial Context for Real Image
Editing [23.513950664274997]
テキスト誘導拡散モデルは画像合成において一般的なツールとなり、高品質で多様な画像を生成することで知られている。
実際の画像の編集への応用は、復元品質を劣化させ、その後編集の忠実度に影響を及ぼすため、しばしばハードルに直面する。
実画像編集に適した空間文脈に富んだ逆解析手法であるノイズマップガイダンス(NMG)を提案する。
論文 参考訳(メタデータ) (2024-02-07T07:16:12Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Object-Centric Diffusion for Efficient Video Editing [64.71639719352636]
拡散ベースのビデオ編集は素晴らしい品質に達している。
このようなソリューションは通常、時間的に整合性のあるフレームを生成するために重いメモリと計算コストを発生させる。
品質を維持しつつ、大幅なスピードアップを可能にする修正を提案する。
論文 参考訳(メタデータ) (2024-01-11T08:36:15Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - Accelerating Text-to-Image Editing via Cache-Enabled Sparse Diffusion
Inference [36.73121523987844]
本稿では,高速画像セマンティック編集 (FISEdit) を導入し,効率的なテキスト・画像編集のためのキャッシュ付きスパース拡散モデル推論エンジンを提案する。
FISEditは、入力テキスト上の小さな変更と出力画像上の影響を受ける領域の間の意味マッピングを使用する。
テキスト編集ステップ毎に、FISEditは影響を受ける画像領域を自動で識別し、キャッシュされた未変更領域の特徴マップを利用して推論プロセスを高速化する。
論文 参考訳(メタデータ) (2023-05-27T09:14:03Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。