論文の概要: EraseDraw: Learning to Insert Objects by Erasing Them from Images
- arxiv url: http://arxiv.org/abs/2409.00522v1
- Date: Sat, 31 Aug 2024 18:37:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 14:18:10.762599
- Title: EraseDraw: Learning to Insert Objects by Erasing Them from Images
- Title(参考訳): EraseDraw: 画像からテーマを消去してオブジェクトを挿入する学習
- Authors: Alper Canberk, Maksym Bondarenko, Ege Ozguroglu, Ruoshi Liu, Carl Vondrick,
- Abstract要約: 以前の作業は、画像のグローバルな変更、非現実的な空間的な場所へのオブジェクト挿入、不正確な光の詳細の生成によって失敗することが多い。
我々は、最先端のモデルではオブジェクト挿入が不十分であるが、オブジェクトを削除し、自然画像の背景を非常によく消し去ることができることを観察した。
様々な領域にまたがる多様な挿入プロンプトと画像について,説得力のある結果を示す。
- 参考スコア(独自算出の注目度): 24.55843674256795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creative processes such as painting often involve creating different components of an image one by one. Can we build a computational model to perform this task? Prior works often fail by making global changes to the image, inserting objects in unrealistic spatial locations, and generating inaccurate lighting details. We observe that while state-of-the-art models perform poorly on object insertion, they can remove objects and erase the background in natural images very well. Inverting the direction of object removal, we obtain high-quality data for learning to insert objects that are spatially, physically, and optically consistent with the surroundings. With this scalable automatic data generation pipeline, we can create a dataset for learning object insertion, which is used to train our proposed text conditioned diffusion model. Qualitative and quantitative experiments have shown that our model achieves state-of-the-art results in object insertion, particularly for in-the-wild images. We show compelling results on diverse insertion prompts and images across various domains.In addition, we automate iterative insertion by combining our insertion model with beam search guided by CLIP.
- Abstract(参考訳): 絵画のような創造的なプロセスは、しばしば画像の異なるコンポーネントを1つずつ作成する。
このタスクを実行するための計算モデルを構築することはできますか?
以前の作業は、画像のグローバルな変更、非現実的な空間的な場所へのオブジェクト挿入、不正確な光の詳細の生成によって失敗することが多い。
我々は、最先端のモデルではオブジェクト挿入が不十分であるが、オブジェクトを削除し、自然画像の背景を非常によく消し去ることができることを観察した。
物体除去の方向を逆転させ,空間的,物理的,光学的に周囲と整合した物体を挿入する学習のための高品質なデータを得る。
このスケーラブルな自動データ生成パイプラインにより、提案したテキスト条件拡散モデルをトレーニングするために、オブジェクト挿入を学習するためのデータセットを作成することができる。
定性的および定量的実験により,本モデルが物体挿入,特に眼内画像に対して,最先端の結果が得られることが示された。
さらに, 挿入モデルとCLIPによるビームサーチを組み合わせることで, 挿入プロンプトや画像の多様化を図り, 反復的挿入を自動化した。
関連論文リスト
- Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models [78.90023746996302]
Add-itは、拡散モデルの注意メカニズムを拡張して、3つの主要なソースからの情報を組み込む、トレーニング不要のアプローチである。
我々の重み付き拡張アテンション機構は、自然物の位置を確実にしながら、構造的一貫性と細部を維持できる。
人間の評価によると、Add-itは80%以上のケースで好まれる。
論文 参考訳(メタデータ) (2024-11-11T18:50:09Z) - Generative Location Modeling for Spatially Aware Object Insertion [35.62317512925592]
生成モデルは、オブジェクト挿入を含む画像編集タスクの強力なツールになっている。
本稿では,現実的な物体の位置を識別するための位置モデルの構築に焦点をあてる。
具体的には,背景画像と所望のオブジェクトクラスに条件付き境界ボックス座標を生成する自己回帰モデルを訓練する。
この定式化により、スパース配置アノテーションを効果的に処理し、直接選好最適化を行うことで、不明瞭な位置を選好データセットに組み込むことができる。
論文 参考訳(メタデータ) (2024-10-17T14:00:41Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Outline-Guided Object Inpainting with Diffusion Models [11.391452115311798]
インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。
この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。
オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
論文 参考訳(メタデータ) (2024-02-26T09:21:17Z) - Diffusion Self-Guidance for Controllable Image Generation [106.59989386924136]
自己誘導(Self-guidance)は、拡散モデルの内部表現を導くことによって、生成された画像に対するより深い制御を提供する。
課題の画像操作を行うために、簡単なプロパティセットをいかに構成できるかを示す。
また,実画像の編集に自己指導が有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:59:56Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。
我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。
本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-12-02T02:15:13Z) - LayoutBERT: Masked Language Layout Model for Object Insertion [3.4806267677524896]
本稿では,オブジェクト挿入タスクのためのレイアウトBERTを提案する。
これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。
各種ドメインからのデータセットの質的および定量的評価を行う。
論文 参考訳(メタデータ) (2022-04-30T21:35:38Z) - Object-aware Contrastive Learning for Debiased Scene Representation [74.30741492814327]
オブジェクトを自己教師型でローカライズする,オブジェクト認識型コントラスト学習フレームワークを開発した。
また、コントラCAM、オブジェクト認識型乱作、背景混合に基づく2つのデータ拡張を導入し、コントラスト型自己教師型学習における文脈バイアスと背景バイアスを低減した。
論文 参考訳(メタデータ) (2021-07-30T19:24:07Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。