論文の概要: IMAGHarmony: Controllable Image Editing with Consistent Object Quantity and Layout
- arxiv url: http://arxiv.org/abs/2506.01949v2
- Date: Thu, 09 Oct 2025 17:55:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.520327
- Title: IMAGHarmony: Controllable Image Editing with Consistent Object Quantity and Layout
- Title(参考訳): IMAGHarmony: 一貫性のあるオブジェクト量とレイアウトによる制御可能な画像編集
- Authors: Fei Shen, Yutong Gao, Jian Yu, Xiaoyu Du, Jinhui Tang,
- Abstract要約: マルチオブジェクトシーンにおける量とレイアウトの整合性(QL-Edit)について検討した。
我々はIMAGHarmonyについて述べる。IMAGHarmonyは、オブジェクトの個数と位置をモデル化しながら知覚意味論を融合する、プラグアンドプレイ調和認識(HA)モジュールを特徴とするフレームワークである。
また、視覚と言語マッチングを通して意味的に整合した初期雑音を選択するPNS戦略を提案する。
- 参考スコア(独自算出の注目度): 36.70548378032599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent diffusion models have advanced image editing by improving fidelity and controllability across creative and personalized applications. However, multi-object scenes remain challenging, as reliable control over object categories, counts, and spatial layout is difficult to achieve. For that, we first study quantity and layout consistent image editing, abbreviated as QL-Edit, which targets control of object quantity and spatial layout in multi-object scenes. Then, we present IMAGHarmony, a straightforward framework featuring a plug-and-play harmony aware (HA) module that fuses perception semantics while modeling object counts and locations, resulting in accurate edits and strong structural consistency. We further observe that diffusion models are sensitive to the choice of initial noise and tend to prefer certain noise patterns. Based on this finding, we present a preference-guided noise selection (PNS) strategy that selects semantically aligned initial noise through vision and language matching, thereby further improving generation stability and layout consistency in multiple object editing. To support evaluation, we develop HarmonyBench, a comprehensive benchmark that covers a diverse range of quantity and layout control scenarios. Extensive experiments demonstrate that IMAGHarmony outperforms prior methods in both structural alignment and semantic accuracy, utilizing only 200 training images and 10.6M of trainable parameters. Code, models, and data are available at https://github.com/muzishen/IMAGHarmony.
- Abstract(参考訳): 最近の拡散モデルでは、創造的およびパーソナライズされたアプリケーション間での忠実さと制御性を改善することにより、画像編集が進歩している。
しかし、オブジェクトカテゴリ、カウント、空間レイアウトの信頼性の高い制御が難しいため、マルチオブジェクトシーンは依然として困難なままである。
そこで我々はまず,多目的シーンにおけるオブジェクト量と空間的レイアウトの制御を目的としたQL-Editと呼ばれる,量とレイアウトの整合性のある画像編集について検討する。
そして、IMAGHarmonyを提示する。これは、プラグアンドプレイ調和認識(HA)モジュールを特徴とする単純なフレームワークで、オブジェクトの個数と位置をモデル化しながら知覚意味論を融合させ、正確な編集と強い構造整合をもたらす。
さらに、拡散モデルは初期雑音の選択に敏感であり、特定の雑音パターンを好む傾向があることを観察する。
この結果に基づき、視覚と言語マッチングによる意味的に整合した初期雑音を選択し、複数のオブジェクト編集における生成安定性とレイアウトの整合性をさらに向上する優先誘導雑音選択(PNS)戦略を提案する。
評価を支援するために,多種多様な量およびレイアウト制御シナリオをカバーする包括的なベンチマークであるHarmonyBenchを開発した。
大規模な実験では、IMAGHarmonyは200のトレーニング画像と10.6Mのトレーニング可能なパラメータしか利用せず、構造的アライメントと意味的精度の両方において先行手法よりも優れていた。
コード、モデル、データはhttps://github.com/muzishen/IMAGHarmony.comで入手できる。
関連論文リスト
- LORE: Latent Optimization for Precise Semantic Control in Rectified Flow-based Image Editing [0.276240219662896]
トレーニング不要で効率的な画像編集手法であるLOREを紹介する。
LOREは逆ノイズを直接最適化し、既存のアプローチの一般化と制御可能性の限界に対処する。
実験の結果,LOREはセマンティックアライメント,画像品質,背景忠実度において,強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-08-05T06:45:04Z) - LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer [32.9330637921386]
LAMICはレイアウト対応のマルチイメージコンポジションフレームワークである。
単一の参照拡散モデルをトレーニング不要な方法でマルチ参照シナリオに拡張する。
ID-S、BG-S、IN-R、AVGのスコアにおいて、既存のマルチ参照ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-01T09:51:54Z) - Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。
提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。
オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文 参考訳(メタデータ) (2025-03-15T17:36:24Z) - PSF-4D: A Progressive Sampling Framework for View Consistent 4D Editing [10.331089974537873]
4次元編集のためのプログレッシブサンプリングフレームワーク(PSF-4D)を提案する。
時間的コヒーレンスのために、時間とともにフレームをリンクする相関したガウス雑音構造を設計する。
ビュー間の空間的整合性を実現するために、クロスビューノイズモデルを実装している。
提案手法は,外部モデルに頼らずに高品質な4D編集を可能にする。
論文 参考訳(メタデータ) (2025-03-14T03:16:42Z) - EditAR: Unified Conditional Generation with Autoregressive Models [58.093860528672735]
本稿では,条件付き画像生成タスクのための単一の統合自己回帰フレームワークであるEditARを提案する。
このモデルは、画像と命令の両方を入力として取り、バニラの次のパラダイムで編集された画像トークンを予測する。
確立されたベンチマークにおいて,様々なタスクにまたがる実効性を評価し,様々なタスク固有の手法に対する競争性能を示す。
論文 参考訳(メタデータ) (2025-01-08T18:59:35Z) - Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。
これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文 参考訳(メタデータ) (2024-12-30T16:56:44Z) - Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。
本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。
テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文 参考訳(メタデータ) (2024-02-27T14:07:09Z) - CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware
Training [112.96224800952724]
複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。
各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。
さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-03-22T16:13:27Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。