論文の概要: LayoutBERT: Masked Language Layout Model for Object Insertion
- arxiv url: http://arxiv.org/abs/2205.00347v1
- Date: Sat, 30 Apr 2022 21:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 08:00:33.770381
- Title: LayoutBERT: Masked Language Layout Model for Object Insertion
- Title(参考訳): LayoutBERT: オブジェクト挿入のためのマスク言語レイアウトモデル
- Authors: Kerem Turgutlu, Sanat Sharma and Jayant Kumar
- Abstract要約: 本稿では,オブジェクト挿入タスクのためのレイアウトBERTを提案する。
これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。
各種ドメインからのデータセットの質的および定量的評価を行う。
- 参考スコア(独自算出の注目度): 3.4806267677524896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image compositing is one of the most fundamental steps in creative workflows.
It involves taking objects/parts of several images to create a new image,
called a composite. Currently, this process is done manually by creating
accurate masks of objects to be inserted and carefully blending them with the
target scene or images, usually with the help of tools such as Photoshop or
GIMP. While there have been several works on automatic selection of objects for
creating masks, the problem of object placement within an image with the
correct position, scale, and harmony remains a difficult problem with limited
exploration. Automatic object insertion in images or designs is a difficult
problem as it requires understanding of the scene geometry and the color
harmony between objects. We propose LayoutBERT for the object insertion task.
It uses a novel self-supervised masked language model objective and
bidirectional multi-head self-attention. It outperforms previous layout-based
likelihood models and shows favorable properties in terms of model capacity. We
demonstrate the effectiveness of our approach for object insertion in the image
compositing setting and other settings like documents and design templates. We
further demonstrate the usefulness of the learned representations for
layout-based retrieval tasks. We provide both qualitative and quantitative
evaluations on datasets from diverse domains like COCO, PublayNet, and two new
datasets which we call Image Layouts and Template Layouts. Image Layouts which
consists of 5.8 million images with layout annotations is the largest image
layout dataset to our knowledge. We also share ablation study results on the
effect of dataset size, model size and class sample size for this task.
- Abstract(参考訳): 画像合成は、クリエイティブワークフローにおける最も基本的なステップの1つである。
これは合成と呼ばれる新しい画像を作成するために複数の画像のオブジェクト/パーツを取ることを含む。
現在、このプロセスは、挿入するオブジェクトの正確なマスクを作成し、通常photoshopやgimpといったツールの助けを借りて、ターゲットシーンやイメージと慎重に混ぜ合わせることで、手動で行う。
マスクを作成するためのオブジェクトの自動選択に関する研究はいくつかあるが、正しい位置、スケール、ハーモニーを持つ画像内のオブジェクト配置の問題は、限られた探索において難しい問題である。
画像やデザインの自動挿入は、シーンの幾何学とオブジェクト間の色調和を理解する必要があるため、難しい問題である。
オブジェクト挿入タスクに対してLayoutBERTを提案する。
これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。
従来のレイアウトベースの可能性モデルよりも優れており、モデルキャパシティの点で好ましい特性を示している。
本稿では、画像合成設定や文書やデザインテンプレートなどの設定において、オブジェクト挿入に対するアプローチの有効性を示す。
さらに,レイアウトに基づく検索作業における学習表現の有用性を示す。
私たちは、COCO、PublayNetといったさまざまなドメインからのデータセットの質的および定量的評価と、Image LayoutsとTemplate Layoutsと呼ばれる2つの新しいデータセットを提供します。
Image Layoutsはレイアウトアノテーションを備えた580万の画像で構成されており、私たちの知る限り最大の画像レイアウトデータセットである。
また,この課題に対するデータセットサイズ,モデルサイズ,クラスサンプルサイズの影響について比較検討を行った。
関連論文リスト
- GroundingBooth: Grounding Text-to-Image Customization [17.185571339157075]
我々は、前景と背景オブジェクトの両方にゼロショットのインスタンスレベルの空間的グラウンドを実現するフレームワークであるGarthingBoothを紹介した。
提案したテキスト画像グラウンドモジュールとマスク付きクロスアテンション層は、正確なレイアウトアライメントとアイデンティティ保存の両方でパーソナライズされた画像を生成することができる。
論文 参考訳(メタデータ) (2024-09-13T03:40:58Z) - EraseDraw: Learning to Insert Objects by Erasing Them from Images [24.55843674256795]
以前の作業は、画像のグローバルな変更、非現実的な空間的な場所へのオブジェクト挿入、不正確な光の詳細の生成によって失敗することが多い。
我々は、最先端のモデルではオブジェクト挿入が不十分であるが、オブジェクトを削除し、自然画像の背景を非常によく消し去ることができることを観察した。
様々な領域にまたがる多様な挿入プロンプトと画像について,説得力のある結果を示す。
論文 参考訳(メタデータ) (2024-08-31T18:37:48Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Paint by Inpaint: Learning to Add Image Objects by Removing Them First [8.399234415641319]
我々は、画像にオブジェクトを効果的に付加して、塗布過程を逆転させる拡散モデルを訓練する。
削除対象の詳細な記述と,これらの記述を多種多様な自然言語命令に変換するための大規模言語モデルを提供する。
論文 参考訳(メタデータ) (2024-04-28T15:07:53Z) - Customizing Text-to-Image Diffusion with Camera Viewpoint Control [53.621518249820745]
モデルカスタマイズのためのカメラ視点の明示的な制御を可能にする新しいタスクを導入する。
これにより、テキストプロンプトによって、さまざまな背景シーンのオブジェクトプロパティを変更することができます。
本稿では,新しいオブジェクトのレンダリング・ビュー依存的な特徴に対して,2次元拡散過程を条件付けることを提案する。
論文 参考訳(メタデータ) (2024-04-18T16:59:51Z) - Outline-Guided Object Inpainting with Diffusion Models [11.391452115311798]
インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。
この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。
オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
論文 参考訳(メタデータ) (2024-02-26T09:21:17Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Scene Graph to Image Generation with Contextualized Object Layout
Refinement [92.85331019618332]
シーングラフから画像を生成する新しい手法を提案する。
提案手法では,レイアウトのカバレッジを約20ポイント向上し,オブジェクトの重複量を無視できる量に削減する。
論文 参考訳(メタデータ) (2020-09-23T06:27:54Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。