論文の概要: Consistent Image Layout Editing with Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.06419v1
- Date: Sun, 09 Mar 2025 03:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:00.135619
- Title: Consistent Image Layout Editing with Diffusion Models
- Title(参考訳): 拡散モデルを用いた一貫性画像レイアウト編集
- Authors: Tao Xia, Yudi Zhang, Ting Liu Lei Zhang,
- Abstract要約: 本稿では,実際の画像を特定のレイアウトに並べ替えるだけでなく,オブジェクトの外観が編集前と一致することを保証できる新しい画像レイアウト編集手法を提案する。
- 参考スコア(独自算出の注目度): 0.8431867616409958
- License:
- Abstract: Despite the great success of large-scale text-to-image diffusion models in image generation and image editing, existing methods still struggle to edit the layout of real images. Although a few works have been proposed to tackle this problem, they either fail to adjust the layout of images, or have difficulty in preserving visual appearance of objects after the layout adjustment. To bridge this gap, this paper proposes a novel image layout editing method that can not only re-arrange a real image to a specified layout, but also can ensure the visual appearance of the objects consistent with their appearance before editing. Concretely, the proposed method consists of two key components. Firstly, a multi-concept learning scheme is used to learn the concepts of different objects from a single image, which is crucial for keeping visual consistency in the layout editing. Secondly, it leverages the semantic consistency within intermediate features of diffusion models to project the appearance information of objects to the desired regions directly. Besides, a novel initialization noise design is adopted to facilitate the process of re-arranging the layout. Extensive experiments demonstrate that the proposed method outperforms previous works in both layout alignment and visual consistency for the task of image layout editing
- Abstract(参考訳): 画像生成や画像編集における大規模テキスト・画像拡散モデルの成功にもかかわらず、既存の手法はいまだに実際の画像のレイアウトの編集に苦慮している。
この問題に対処するためのいくつかの研究が提案されているが、画像のレイアウトの調整に失敗したり、レイアウト調整後のオブジェクトの視覚的外観の維持が困難であったりしている。
このギャップを埋めるために,本研究では,実際の画像を特定のレイアウトに並べ替えるだけでなく,画像の外観が編集前に整合していることを保証する新しい画像レイアウト編集手法を提案する。
具体的には,提案手法は2つの重要な構成要素から構成される。
まず,複数概念の学習手法を用いて1つの画像から異なる物体の概念を学習し,レイアウト編集における視覚的一貫性を維持することが重要である。
第二に、拡散モデルの中間的特徴のセマンティック一貫性を利用して、オブジェクトの外観情報を目的の領域に直接投影する。
また、レイアウトの再配置を容易にするため、新しい初期化ノイズ設計を採用する。
画像レイアウト編集作業におけるレイアウトアライメントと視覚的整合性の両方において,提案手法が従来よりも優れていたことが実証された。
関連論文リスト
- PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の77~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - Continuous Layout Editing of Single Images with Diffusion Models [24.581184791106562]
本稿では,その視覚的特性を保ちながら,単一の画像のレイアウト編集を行うための最初のフレームワークを提案する。
私たちのアプローチは2つの重要なモジュールを通じて実現されます。
私たちのコードは受理後、無料で公開されます。
論文 参考訳(メタデータ) (2023-06-22T17:51:05Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Geometry Aligned Variational Transformer for Image-conditioned Layout
Generation [38.747175229902396]
画像中の様々なレイアウトを自動回帰的に生成するICVT(Image-Conditioned Variational Transformer)を提案する。
まず、レイアウト要素内のコンテキスト関係をモデル化するために自己認識機構を採用し、一方、クロスアテンション機構は条件付き画像の視覚情報を融合するために使用される。
広告ポスターレイアウト設計データセットを大規模に構築し,微妙なレイアウトと鮮度マップアノテーションを付加する。
論文 参考訳(メタデータ) (2022-09-02T07:19:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。