論文の概要: Image Editing As Programs with Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.04158v1
- Date: Wed, 04 Jun 2025 16:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.479952
- Title: Image Editing As Programs with Diffusion Models
- Title(参考訳): 拡散モデルを用いたプログラムとしての画像編集
- Authors: Yujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang,
- Abstract要約: 本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
- 参考スコア(独自算出の注目度): 69.05164729625052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While diffusion models have achieved remarkable success in text-to-image generation, they encounter significant challenges with instruction-driven image editing. Our research highlights a key challenge: these models particularly struggle with structurally inconsistent edits that involve substantial layout changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a unified image editing framework built upon the Diffusion Transformer (DiT) architecture. At its core, IEAP approaches instructional editing through a reductionist lens, decomposing complex editing instructions into sequences of atomic operations. Each operation is implemented via a lightweight adapter sharing the same DiT backbone and is specialized for a specific type of edit. Programmed by a vision-language model (VLM)-based agent, these operations collaboratively support arbitrary and structurally inconsistent transformations. By modularizing and sequencing edits in this way, IEAP generalizes robustly across a wide range of editing tasks, from simple adjustments to substantial structural changes. Extensive experiments demonstrate that IEAP significantly outperforms state-of-the-art methods on standard benchmarks across various editing scenarios. In these evaluations, our framework delivers superior accuracy and semantic fidelity, particularly for complex, multi-step instructions. Codes are available at https://github.com/YujiaHu1109/IEAP.
- Abstract(参考訳): 拡散モデルはテキスト・画像生成において顕著な成功を収めてきたが、命令駆動画像編集において大きな課題に直面している。
われわれの研究は重要な課題を浮き彫りにしている:これらのモデルは特に、相当なレイアウト変更を伴う構造的に一貫性のない編集に苦慮している。
このギャップを軽減するために,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークであるイメージ編集・アズ・プログラム (IEAP) を導入する。
IEAPのコアとなるのは、複雑な編集命令をアトミック操作のシーケンスに分解する、リダミストレンズによる命令編集である。
各操作は、同じDiTバックボーンを共有する軽量アダプタを介して実装され、特定の種類の編集に特化されている。
視覚言語モデル(VLM)ベースのエージェントによってプログラムされたこれらの操作は、任意かつ構造的に一貫性のない変換を協調的にサポートする。
この方法で編集のモジュール化とシークエンシングを行うことで、IEAPは単純な調整から実質的な構造的変更に至るまで、幅広い編集タスクを堅牢に一般化する。
大規模な実験により、IEAPは様々な編集シナリオで標準ベンチマークにおける最先端のメソッドを著しく上回っていることが示された。
これらの評価において,本フレームワークは,特に複雑なマルチステップ命令に対して,精度とセマンティック忠実度を向上する。
コードはhttps://github.com/YujiaHu1109/IEAPで入手できる。
関連論文リスト
- SPICE: A Synergistic, Precise, Iterative, and Customizable Image Editing Workflow [8.850778795270351]
SPICEは任意の解像度とアスペクト比を受け入れ、ユーザの要求を正確に追従し、画像品質を一貫して改善する、トレーニング不要のワークフローである。
SPICEは、挑戦的なリアルな画像編集データセットで最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-13T19:13:04Z) - BrushEdit: All-In-One Image Inpainting and Editing [76.93556996538398]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - FunEditor: Achieving Complex Image Edits via Function Aggregation with Diffusion Models [15.509233098264513]
拡散モデルは生成タスクにおいて優れた性能を示しており、画像編集の理想的な候補となっている。
本稿では,原子編集関数を学習し,より単純な関数を集約して複雑な編集を行うための,効率的な拡散モデルFunEditorを紹介する。
推論の4ステップだけで、FunEditorは既存の一般的なメソッドよりも5~24倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-16T02:33:55Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。