論文の概要: HierEdit: Region-Aware Hierarchical Diffusion for Efficient High-Resolution Editing
- arxiv url: http://arxiv.org/abs/2605.17294v1
- Date: Sun, 17 May 2026 07:14:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.836369
- Title: HierEdit: Region-Aware Hierarchical Diffusion for Efficient High-Resolution Editing
- Title(参考訳): HierEdit: 効率的な高分解能編集のための領域認識階層的拡散
- Authors: Yuyao Zhang, Alexander Huang-Menders, Yu-Wing Tai,
- Abstract要約: プロやクリエイティブなアプリケーションには高解像度の画像編集が不可欠である。
現在のアプローチでは、イメージキャンバス全体を冗長に処理するか、大規模な高解像度データセットに依存している。
高速かつスケーラブルな高解像度画像編集のための領域対応階層拡散フレームワークであるHierEditを紹介する。
- 参考スコア(独自算出の注目度): 83.1290629939693
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: High-resolution image editing is essential for professional and creative applications, yet existing multimodal diffusion-based editors remain computationally inefficient and constrained to relatively low resolutions. Current approaches redundantly process the entire image canvas or rely on large-scale high-resolution datasets, resulting in substantial training and inference costs. We introduce HierEdit, a region-aware hierarchical diffusion framework designed for efficient and scalable high-resolution image editing. Our method first performs edits on a low-resolution proxy using an off-the-shelf editing model to generate a reference and to localize the modified regions. A hierarchical local-window diffusion model (\textbf{Local-Window MMDiT}) that refines only edited regions within the original high-res image, while reusing the unaltered regions as conditioning inputs. The low-resolution proxy further provides structural guidance and intermediate denoising supervision (\textbf{Inference Acceleration}) , ensuring consistent global semantics and stable generation without the need for full-resolution attention computation. This targeted and hierarchical design enables fast, high-fidelity editing of images up to 4K resolution without any specialized high-resolution training data. Extensive experiments demonstrate that HierEdit achieves competitive visual quality on commodity-resolution datasets while significantly accelerating inference and extending seamlessly to ultra-high-resolution 4K editing. Please check our {\href{https://peteryyzhang.github.io/HierEdit-page/}{\textbf{Project Page}}}.
- Abstract(参考訳): プロやクリエイティブなアプリケーションには高解像度の画像編集が不可欠であるが、既存のマルチモーダル拡散ベースのエディタは計算的に非効率であり、比較的低解像度に制限されている。
現在のアプローチでは、イメージキャンバス全体を冗長に処理するか、大規模な高解像度データセットに依存しているため、相当なトレーニングと推論コストが発生する。
高速でスケーラブルな高解像度画像編集のために設計された地域対応階層的拡散フレームワークであるHierEditを紹介する。
提案手法は,まずオフザシェルフ編集モデルを用いて低解像度のプロキシ上で編集を行い,参照を生成し,修正領域をローカライズする。
階層型局所ウィンドウ拡散モデル (\textbf{Local-Window MMDiT}) は、未修正領域を条件付け入力として再利用しながら、元の高解像度画像内の編集領域のみを洗練する。
低解像度のプロキシはさらに、構造的なガイダンスと中間的記述監督(\textbf{Inference Acceleration})を提供し、完全解像度の注意計算を必要とせずに、一貫したグローバルセマンティクスと安定した生成を保証する。
このターゲットで階層的な設計は、特別な高解像度のトレーニングデータなしで、4K解像度までの高速で高忠実な画像編集を可能にする。
大規模な実験により、HierEditはコモディティ・レゾリューション・データセット上で競争力のある視覚的品質を実現し、推論を著しく加速し、超高解像度4K編集にシームレスに拡張することを示した。
https://peteryyzhang.github.io/HierEdit-page/}{\textbf{Project Page}}} をご覧ください。
関連論文リスト
- SpecEdit: Training-Free Acceleration for Diffusion based Image Editing via Semantic Locking [12.078069478646057]
SpecEditは、拡散ベースの画像編集に適したトレーニング不要の動的解像度フレームワークである。
Qwen-Image-EditとFLUX.1-Kontext-devの実験では、強い品質を維持しながら、最大10倍と7倍の加速を示す。
論文 参考訳(メタデータ) (2026-05-04T02:30:24Z) - VIBE: Visual Instruction Based Editor [60.21587335143115]
本稿では,高速な命令に基づく画像編集パイプラインを提案する。
パイプラインはImgEditとGEditベンチマークで評価される。
BF16ではNVIDIA H100で最大2K解像度で編集画像を生成するが、追加の推論最適化や蒸留は行わない。
論文 参考訳(メタデータ) (2026-01-05T16:17:20Z) - Low-Resolution Editing is All You Need for High-Resolution Editing [67.6663530128766]
本稿では,高精細画像編集の課題を導入し,それに対応するテスト時間最適化フレームワークを提案する。
提案手法では,高解像度のソース画像に対してパッチワイズ最適化を行い,さらに細かな細部転送モジュールと新しい同期戦略を提案する。
論文 参考訳(メタデータ) (2025-11-25T05:35:32Z) - Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。
本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。
さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-23T20:34:43Z) - X-Edit: Detecting and Localizing Edits in Images Altered by Text-Guided Diffusion Models [3.610796534465868]
実験結果から,X-Editはテキスト誘導拡散モデルによって修正された画像の編集を正確にローカライズすることが示された。
これは、高度な画像編集技術によって導入された操作を検出し、ピンポイントする堅牢な法医学ツールとしてのX-Editの可能性を強調している。
論文 参考訳(メタデータ) (2025-05-16T23:29:38Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。