論文の概要: IMAGHarmony: Controllable Image Editing with Consistent Object Quantity and Layout
- arxiv url: http://arxiv.org/abs/2506.01949v1
- Date: Mon, 02 Jun 2025 17:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.773454
- Title: IMAGHarmony: Controllable Image Editing with Consistent Object Quantity and Layout
- Title(参考訳): IMAGHarmony: 一貫性のあるオブジェクト量とレイアウトによる制御可能な画像編集
- Authors: Fei Shen, Xiaoyu Du, Yutong Gao, Jian Yu, Yushe Cao, Xing Lei, Jinhui Tang,
- Abstract要約: QL-Editは、複雑なシーンにおけるオブジェクト量と空間構造のきめ細かい制御を可能にすることを目的としている。
IMAGHarmonyは、マルチモーダルセマンティクスを統合し、オブジェクトのカウントとレイアウトを明示的にモデル化する構造対応フレームワークである。
実験では、IMAGHarmonyは構造的アライメントと意味的精度において、最先端の手法を一貫して上回っている。
- 参考スコア(独自算出の注目度): 30.776755771976198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent diffusion models have advanced image editing by enhancing visual quality and control, supporting broad applications across creative and personalized domains. However, current image editing largely overlooks multi-object scenarios, where precise control over object categories, counts, and spatial layouts remains a significant challenge. To address this, we introduce a new task, quantity-and-layout consistent image editing (QL-Edit), which aims to enable fine-grained control of object quantity and spatial structure in complex scenes. We further propose IMAGHarmony, a structure-aware framework that incorporates harmony-aware attention (HA) to integrate multimodal semantics, explicitly modeling object counts and layouts to enhance editing accuracy and structural consistency. In addition, we observe that diffusion models are susceptible to initial noise and exhibit strong preferences for specific noise patterns. Motivated by this, we present a preference-guided noise selection (PNS) strategy that chooses semantically aligned initial noise samples based on vision-language matching, thereby improving generation stability and layout consistency in multi-object editing. To support evaluation, we construct HarmonyBench, a comprehensive benchmark covering diverse quantity and layout control scenarios. Extensive experiments demonstrate that IMAGHarmony consistently outperforms state-of-the-art methods in structural alignment and semantic accuracy. The code and model are available at https://github.com/muzishen/IMAGHarmony.
- Abstract(参考訳): 最近の拡散モデルでは、視覚的品質と制御を向上し、創造的およびパーソナライズされたドメインにわたる幅広いアプリケーションをサポートすることにより、画像編集が進歩している。
しかし、現在の画像編集は、オブジェクトカテゴリ、カウント、空間レイアウトの正確な制御が重要な課題である、多目的シナリオを概ね見落としている。
そこで我々は,複雑なシーンにおけるオブジェクト量と空間構造をきめ細かな制御を可能にするために,新しいタスクQL-Editを導入する。
さらに、マルチモーダルなセマンティクスを統合するために、調和意識(HA)を組み込んだ構造認識フレームワークであるIMAGHarmonyを提案し、オブジェクト数とレイアウトを明示的にモデル化し、編集精度と構造整合性を高める。
さらに,拡散モデルは初期雑音の影響を受けやすく,特定の雑音パターンに対する強い好みを示す。
これにより、視覚言語マッチングに基づいて、意味的に整合した初期ノイズサンプルを選択し、多目的編集における生成安定性とレイアウト整合性を向上させるPNS戦略を提案する。
評価を支援するために,多様な量およびレイアウト制御シナリオをカバーする包括的なベンチマークであるHarmonyBenchを構築した。
大規模な実験により、IMAGHarmonyは構造的アライメントと意味的精度において最先端の手法を一貫して上回っていることが示された。
コードとモデルはhttps://github.com/muzishen/IMAGHarmony.comで公開されている。
関連論文リスト
- Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。
提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。
オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文 参考訳(メタデータ) (2025-03-15T17:36:24Z) - EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。
これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文 参考訳(メタデータ) (2024-12-30T16:56:44Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware
Training [112.96224800952724]
複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。
各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。
さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-03-22T16:13:27Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。