論文の概要: RegionE: Adaptive Region-Aware Generation for Efficient Image Editing
- arxiv url: http://arxiv.org/abs/2510.25590v1
- Date: Wed, 29 Oct 2025 14:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.713165
- Title: RegionE: Adaptive Region-Aware Generation for Efficient Image Editing
- Title(参考訳): RegionE: 効率的な画像編集のための適応型領域認識生成
- Authors: Pengtao Chen, Xianfang Zeng, Maosen Zhao, Mingzhu Shen, Peng Ye, Bangyin Xiang, Zhibo Wang, Wei Cheng, Gang Yu, Tao Chen,
- Abstract要約: RegionEは、追加のトレーニングなしでIIEタスクを加速する適応型、リージョン対応の生成フレームワークである。
フレームワークは,1)適応領域分割,2)領域認識生成,3)適応速度劣化キャッシュの3つの主要コンポーネントから構成される。
我々はRereaEをStep1X-Edit、FLUX.1 Kontext、Qwen-Image-Editといった最先端IIEベースモデルに適用した。
- 参考スコア(独自算出の注目度): 28.945176886517448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, instruction-based image editing (IIE) has received widespread attention. In practice, IIE often modifies only specific regions of an image, while the remaining areas largely remain unchanged. Although these two types of regions differ significantly in generation difficulty and computational redundancy, existing IIE models do not account for this distinction, instead applying a uniform generation process across the entire image. This motivates us to propose RegionE, an adaptive, region-aware generation framework that accelerates IIE tasks without additional training. Specifically, the RegionE framework consists of three main components: 1) Adaptive Region Partition. We observed that the trajectory of unedited regions is straight, allowing for multi-step denoised predictions to be inferred in a single step. Therefore, in the early denoising stages, we partition the image into edited and unedited regions based on the difference between the final estimated result and the reference image. 2) Region-Aware Generation. After distinguishing the regions, we replace multi-step denoising with one-step prediction for unedited areas. For edited regions, the trajectory is curved, requiring local iterative denoising. To improve the efficiency and quality of local iterative generation, we propose the Region-Instruction KV Cache, which reduces computational cost while incorporating global information. 3) Adaptive Velocity Decay Cache. Observing that adjacent timesteps in edited regions exhibit strong velocity similarity, we further propose an adaptive velocity decay cache to accelerate the local denoising process. We applied RegionE to state-of-the-art IIE base models, including Step1X-Edit, FLUX.1 Kontext, and Qwen-Image-Edit. RegionE achieved acceleration factors of 2.57, 2.41, and 2.06. Evaluations by GPT-4o confirmed that semantic and perceptual fidelity were well preserved.
- Abstract(参考訳): 近年,命令ベース画像編集(IIE)が注目されている。
実際には、IIEは画像の特定の領域だけを変更するが、残りの領域はほとんど変わらない。
これらの2つの領域は生成困難と計算冗長性において著しく異なるが、既存のIIEモデルは、画像全体にわたって均一な生成プロセスを適用する代わりに、この区別を考慮しない。
これは、追加のトレーニングなしでIIEタスクを加速する適応型地域対応生成フレームワークであるRereaEを提案する動機である。
具体的には、RereaEフレームワークは3つの主要コンポーネントから構成される。
1)適応地域分割。
未編集領域の軌跡は直線であり,複数段階の復号化予測を1ステップで推測できることがわかった。
そこで,初期復調段階では,最終推定結果と参照画像との差に基づき,編集済み領域と未編集領域に分割する。
2)地域対応世代。
地域を識別した後、未編集領域の1ステップ予測にマルチステップのデノベーションを置き換える。
編集された領域では、軌道は湾曲し、局所的な反復的 denoising が必要となる。
局所的な反復生成の効率と品質を改善するため,グローバル情報を導入しながら計算コストを削減できる領域命令KVキャッシュを提案する。
3)適応的ベロシティ低下キャッシュ。
編集領域の隣接時間ステップが強い速度類似性を示すのを観察し, 局所デノナイジングプロセスの高速化を目的とした適応型速度減衰キャッシュを提案する。
我々はRereaEをStep1X-Edit, FLUX.1を含む最先端IIEベースモデルに適用した。
KontextとQwen-Image-Edit。
RegionEは2.57、2.41、2.06の加速係数を達成した。
GPT-4oによる評価では,意味的および知覚的忠実度が良好に保存されていることが確認された。
関連論文リスト
- EEdit: Rethinking the Spatial and Temporal Redundancy for Efficient Image Editing [47.68813248789496]
本稿では,効率的な画像編集を実現するためのフレームワークであるEEditを提案する。
実験では、幅広い編集タスクのパフォーマンス低下なしに平均2.46ドルの加速を実証している。
論文 参考訳(メタデータ) (2025-03-13T11:26:45Z) - SIA-OVD: Shape-Invariant Adapter for Bridging the Image-Region Gap in Open-Vocabulary Detection [32.83065922106577]
Open-vocabulary Detection (OVD) は、オープンワールドオブジェクト検出を低コストで達成するために、インスタンスレベルのアノテーションなしで新しいオブジェクトを検出することを目的としている。
既存のOVDメソッドはCLIPの強力なオープン語彙画像テキストアライメント機能に依存している。
我々は,SIA-OVD と呼ばれる新しい形状不変アダプタを提案し,OVD タスクにおける画像領域のギャップを埋める。
論文 参考訳(メタデータ) (2024-10-08T02:59:08Z) - Exploiting Regional Information Transformer for Single Image Deraining [40.96287901893822]
Region Transformer Block (RTB) は Region Masked Attention (RMA) 機構と Mixed Gate Forward Block (MGFB) を統合している
我々のモデルは最先端の性能に到達し、画像劣化の品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-02-25T09:09:30Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - Region-Aware Diffusion for Zero-shot Text-driven Image Editing [78.58917623854079]
本稿では,エンティティレベルの画像編集のための領域認識拡散モデル(RDM)を提案する。
画像の忠実度と推論速度のバランスをとるために,集中拡散パイプラインを設計する。
その結果、RDMは、視覚的品質、全体的な調和、非編集領域のコンテンツ保存、テキストイメージのセマンティック一貫性において、従来のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-02-23T06:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。