論文の概要: IMPRINT: Generative Object Compositing by Learning Identity-Preserving Representation
- arxiv url: http://arxiv.org/abs/2403.10701v1
- Date: Fri, 15 Mar 2024 21:37:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 22:14:44.688094
- Title: IMPRINT: Generative Object Compositing by Learning Identity-Preserving Representation
- Title(参考訳): IMPRINT:アイデンティティ保存表現の学習による生成オブジェクトの合成
- Authors: Yizhi Song, Zhifei Zhang, Zhe Lin, Scott Cohen, Brian Price, Jianming Zhang, Soo Ye Kim, He Zhang, Wei Xiong, Daniel Aliaga,
- Abstract要約: IMPRINTは、2段階の学習フレームワークでトレーニングされた新しい拡散ベースの生成モデルである。
最初のステージは、オブジェクトエンコーダのコンテキストに依存しない、アイデンティティを保存する事前トレーニングをターゲットにしている。
第2段階では、この表現を利用して、背景に合成されたオブジェクトのシームレスな調和を学ぶ。
- 参考スコア(独自算出の注目度): 40.34581973675213
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative object compositing emerges as a promising new avenue for compositional image editing. However, the requirement of object identity preservation poses a significant challenge, limiting practical usage of most existing methods. In response, this paper introduces IMPRINT, a novel diffusion-based generative model trained with a two-stage learning framework that decouples learning of identity preservation from that of compositing. The first stage is targeted for context-agnostic, identity-preserving pretraining of the object encoder, enabling the encoder to learn an embedding that is both view-invariant and conducive to enhanced detail preservation. The subsequent stage leverages this representation to learn seamless harmonization of the object composited to the background. In addition, IMPRINT incorporates a shape-guidance mechanism offering user-directed control over the compositing process. Extensive experiments demonstrate that IMPRINT significantly outperforms existing methods and various baselines on identity preservation and composition quality.
- Abstract(参考訳): 生成オブジェクト合成は、合成画像編集のための有望な新しい道として現れる。
しかし、オブジェクトアイデンティティ保存の要件は、既存のほとんどのメソッドの実用的使用を制限するという大きな課題を生んでいる。
そこで本研究では,2段階学習フレームワークを用いて学習した拡散モデルIMPRINTについて述べる。
最初のステージは、オブジェクトエンコーダのコンテキストに依存しない、アイデンティティを保存する事前トレーニングをターゲットにしており、エンコーダは、ビュー不変で、詳細保存の強化に寄与する埋め込みを学ぶことができる。
その後の段階は、この表現を利用して、背景に合成されたオブジェクトのシームレスな調和を学ぶ。
さらにIMPRINTには、コンポジションプロセスに対するユーザ指向制御を提供する形状誘導機構が組み込まれている。
IMPRINTは、既存の方法や、アイデンティティの保存や構成品質に関する様々な基準を著しく上回っている。
関連論文リスト
- Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models [78.90023746996302]
Add-itは、拡散モデルの注意メカニズムを拡張して、3つの主要なソースからの情報を組み込む、トレーニング不要のアプローチである。
我々の重み付き拡張アテンション機構は、自然物の位置を確実にしながら、構造的一貫性と細部を維持できる。
人間の評価によると、Add-itは80%以上のケースで好まれる。
論文 参考訳(メタデータ) (2024-11-11T18:50:09Z) - EZIGen: Enhancing zero-shot personalized image generation with precise subject encoding and decoupled guidance [20.430259028981094]
EZIGenは、与えられたテキストプロンプトと被写体画像の両方に一致した画像を作成することを目的としている。
安定拡散モデルのトレーニング済みUNetをベースとした、慎重に製作された主画像エンコーダである。
統一されたモデルと100倍のトレーニングデータを備えた、複数のパーソナライズされた生成ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-09-12T14:44:45Z) - Learning to Compose: Improving Object Centric Learning by Injecting Compositionality [27.364435779446072]
構成表現は、オブジェクト指向学習の重要な側面である。
既存のアプローチのほとんどは、自動エンコーディングの目的に依存しています。
表現の合成性を明確に促進する新しい目的を提案する。
論文 参考訳(メタデータ) (2024-05-01T17:21:36Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。
我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。
本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-12-02T02:15:13Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。