論文の概要: LayoutBERT: Masked Language Layout Model for Object Insertion
- arxiv url: http://arxiv.org/abs/2205.00347v1
- Date: Sat, 30 Apr 2022 21:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 08:00:33.770381
- Title: LayoutBERT: Masked Language Layout Model for Object Insertion
- Title(参考訳): LayoutBERT: オブジェクト挿入のためのマスク言語レイアウトモデル
- Authors: Kerem Turgutlu, Sanat Sharma and Jayant Kumar
- Abstract要約: 本稿では,オブジェクト挿入タスクのためのレイアウトBERTを提案する。
これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。
各種ドメインからのデータセットの質的および定量的評価を行う。
- 参考スコア(独自算出の注目度): 3.4806267677524896
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image compositing is one of the most fundamental steps in creative workflows.
It involves taking objects/parts of several images to create a new image,
called a composite. Currently, this process is done manually by creating
accurate masks of objects to be inserted and carefully blending them with the
target scene or images, usually with the help of tools such as Photoshop or
GIMP. While there have been several works on automatic selection of objects for
creating masks, the problem of object placement within an image with the
correct position, scale, and harmony remains a difficult problem with limited
exploration. Automatic object insertion in images or designs is a difficult
problem as it requires understanding of the scene geometry and the color
harmony between objects. We propose LayoutBERT for the object insertion task.
It uses a novel self-supervised masked language model objective and
bidirectional multi-head self-attention. It outperforms previous layout-based
likelihood models and shows favorable properties in terms of model capacity. We
demonstrate the effectiveness of our approach for object insertion in the image
compositing setting and other settings like documents and design templates. We
further demonstrate the usefulness of the learned representations for
layout-based retrieval tasks. We provide both qualitative and quantitative
evaluations on datasets from diverse domains like COCO, PublayNet, and two new
datasets which we call Image Layouts and Template Layouts. Image Layouts which
consists of 5.8 million images with layout annotations is the largest image
layout dataset to our knowledge. We also share ablation study results on the
effect of dataset size, model size and class sample size for this task.
- Abstract(参考訳): 画像合成は、クリエイティブワークフローにおける最も基本的なステップの1つである。
これは合成と呼ばれる新しい画像を作成するために複数の画像のオブジェクト/パーツを取ることを含む。
現在、このプロセスは、挿入するオブジェクトの正確なマスクを作成し、通常photoshopやgimpといったツールの助けを借りて、ターゲットシーンやイメージと慎重に混ぜ合わせることで、手動で行う。
マスクを作成するためのオブジェクトの自動選択に関する研究はいくつかあるが、正しい位置、スケール、ハーモニーを持つ画像内のオブジェクト配置の問題は、限られた探索において難しい問題である。
画像やデザインの自動挿入は、シーンの幾何学とオブジェクト間の色調和を理解する必要があるため、難しい問題である。
オブジェクト挿入タスクに対してLayoutBERTを提案する。
これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。
従来のレイアウトベースの可能性モデルよりも優れており、モデルキャパシティの点で好ましい特性を示している。
本稿では、画像合成設定や文書やデザインテンプレートなどの設定において、オブジェクト挿入に対するアプローチの有効性を示す。
さらに,レイアウトに基づく検索作業における学習表現の有用性を示す。
私たちは、COCO、PublayNetといったさまざまなドメインからのデータセットの質的および定量的評価と、Image LayoutsとTemplate Layoutsと呼ばれる2つの新しいデータセットを提供します。
Image Layoutsはレイアウトアノテーションを備えた580万の画像で構成されており、私たちの知る限り最大の画像レイアウトデータセットである。
また,この課題に対するデータセットサイズ,モデルサイズ,クラスサンプルサイズの影響について比較検討を行った。
関連論文リスト
- Outline-Guided Object Inpainting with Diffusion Models [11.391452115311798]
インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。
この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。
オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
論文 参考訳(メタデータ) (2024-02-26T09:21:17Z) - ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。
我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。
本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-12-02T02:15:13Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Semantic-Guided Inpainting Network for Complex Urban Scenes Manipulation [19.657440527538547]
本研究では,ユーザが指定した画像の一部を取り除き,複雑な都市景観を再現する新しいディープラーニングモデルを提案する。
画像のインペイントに関する最近の研究に触発されて,提案手法はセマンティックセグメンテーションを利用して画像の内容と構造をモデル化する。
信頼性の高い結果を生成するために,セマンティックセグメンテーションと生成タスクを組み合わせた新しいデコーダブロックを設計する。
論文 参考訳(メタデータ) (2020-10-19T09:17:17Z) - Scene Graph to Image Generation with Contextualized Object Layout
Refinement [92.85331019618332]
シーングラフから画像を生成する新しい手法を提案する。
提案手法では,レイアウトのカバレッジを約20ポイント向上し,オブジェクトの重複量を無視できる量に削減する。
論文 参考訳(メタデータ) (2020-09-23T06:27:54Z) - BachGAN: High-Resolution Image Synthesis from Salient Object Layout [78.51640906030244]
本稿では、より実用的な画像生成のための新しい課題である、有能なオブジェクトレイアウトからの高品質な画像合成を提案する。
i) セグメンテーションマップ入力なしできめ細かい詳細と現実的なテクスチャを生成する方法、(ii) バックグラウンドを作成してスタンドアロンのオブジェクトにシームレスに織り込む方法である。
幻影背景表現を動的に生成することにより,高解像度画像をフォトリアリスティック・フォアグラウンドと積分背景の両方で合成することができる。
論文 参考訳(メタデータ) (2020-03-26T00:54:44Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z) - Generating Object Stamps [47.20601520671103]
GANアーキテクチャを用いて,様々な前景オブジェクトを生成し,背景画像に合成するアルゴリズムを提案する。
挑戦的なCOCOデータセットの結果,最先端のオブジェクト挿入手法と比較して,全体的な品質と多様性が向上した。
論文 参考訳(メタデータ) (2020-01-01T14:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。