Fugu-MT 論文翻訳(概要): LayoutBERT: Masked Language Layout Model for Object Insertion

論文の概要: LayoutBERT: Masked Language Layout Model for Object Insertion

arxiv url: http://arxiv.org/abs/2205.00347v1
Date: Sat, 30 Apr 2022 21:35:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-04 08:00:33.770381
Title: LayoutBERT: Masked Language Layout Model for Object Insertion
Title（参考訳）: LayoutBERT: オブジェクト挿入のためのマスク言語レイアウトモデル
Authors: Kerem Turgutlu, Sanat Sharma and Jayant Kumar
Abstract要約: 本稿では,オブジェクト挿入タスクのためのレイアウトBERTを提案する。これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。各種ドメインからのデータセットの質的および定量的評価を行う。
参考スコア（独自算出の注目度）: 3.4806267677524896
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image compositing is one of the most fundamental steps in creative workflows. It involves taking objects/parts of several images to create a new image, called a composite. Currently, this process is done manually by creating accurate masks of objects to be inserted and carefully blending them with the target scene or images, usually with the help of tools such as Photoshop or GIMP. While there have been several works on automatic selection of objects for creating masks, the problem of object placement within an image with the correct position, scale, and harmony remains a difficult problem with limited exploration. Automatic object insertion in images or designs is a difficult problem as it requires understanding of the scene geometry and the color harmony between objects. We propose LayoutBERT for the object insertion task. It uses a novel self-supervised masked language model objective and bidirectional multi-head self-attention. It outperforms previous layout-based likelihood models and shows favorable properties in terms of model capacity. We demonstrate the effectiveness of our approach for object insertion in the image compositing setting and other settings like documents and design templates. We further demonstrate the usefulness of the learned representations for layout-based retrieval tasks. We provide both qualitative and quantitative evaluations on datasets from diverse domains like COCO, PublayNet, and two new datasets which we call Image Layouts and Template Layouts. Image Layouts which consists of 5.8 million images with layout annotations is the largest image layout dataset to our knowledge. We also share ablation study results on the effect of dataset size, model size and class sample size for this task.
Abstract（参考訳）: 画像合成は、クリエイティブワークフローにおける最も基本的なステップの1つである。これは合成と呼ばれる新しい画像を作成するために複数の画像のオブジェクト/パーツを取ることを含む。現在、このプロセスは、挿入するオブジェクトの正確なマスクを作成し、通常photoshopやgimpといったツールの助けを借りて、ターゲットシーンやイメージと慎重に混ぜ合わせることで、手動で行う。マスクを作成するためのオブジェクトの自動選択に関する研究はいくつかあるが、正しい位置、スケール、ハーモニーを持つ画像内のオブジェクト配置の問題は、限られた探索において難しい問題である。画像やデザインの自動挿入は、シーンの幾何学とオブジェクト間の色調和を理解する必要があるため、難しい問題である。オブジェクト挿入タスクに対してLayoutBERTを提案する。これは、新しい自己監督型マスク付き言語モデルと双方向多頭部自己注意を用いている。従来のレイアウトベースの可能性モデルよりも優れており、モデルキャパシティの点で好ましい特性を示している。本稿では、画像合成設定や文書やデザインテンプレートなどの設定において、オブジェクト挿入に対するアプローチの有効性を示す。さらに,レイアウトに基づく検索作業における学習表現の有用性を示す。私たちは、COCO、PublayNetといったさまざまなドメインからのデータセットの質的および定量的評価と、Image LayoutsとTemplate Layoutsと呼ばれる2つの新しいデータセットを提供します。 Image Layoutsはレイアウトアノテーションを備えた580万の画像で構成されており、私たちの知る限り最大の画像レイアウトデータセットである。また,この課題に対するデータセットサイズ,モデルサイズ,クラスサンプルサイズの影響について比較検討を行った。

関連論文リスト

ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation [33.91045409317844]
本稿では,オブジェクト挿入と主観的生成の両方のためのチューニング不要な手法を提案する。このタスクでは、複数のビューを与えられたオブジェクトを、画像またはテキストによって指定されたシーンにコンパイルする。我々は,オブジェクト挿入と主観的生成の最先端手法と比較し,単一の参照や複数参照を用いて比較した。
論文参考訳（メタデータ） (2024-12-11T18:59:53Z)
CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation [78.21134311493303]
拡散モデルは、視覚的に魅力的であるだけでなく、芸術的品質の高い画像を生成する能力で認識されている。従来の手法は主にUNetベースのモデル(SD1.5やSDXLなど)に重点を置いており、限られた努力でMM-DiT(Multimodal Diffusion Transformer)を探索している。 MM-DiTの利点を継承して、画像とテキストのモダリティを処理するために、別々の集合ネットワーク重みを用いる。大規模なレイアウトデータセットであるLayoutSAMには、270万のイメージテキストペアと1070万のエンティティが含まれています。
論文参考訳（メタデータ） (2024-12-05T04:09:47Z)
GroundingBooth: Grounding Text-to-Image Customization [17.185571339157075]
我々は、前景と背景オブジェクトの両方にゼロショットのインスタンスレベルの空間的グラウンドを実現するフレームワークであるGarthingBoothを紹介した。提案したテキスト画像グラウンドモジュールとマスク付きクロスアテンション層は、正確なレイアウトアライメントとアイデンティティ保存の両方でパーソナライズされた画像を生成することができる。
論文参考訳（メタデータ） (2024-09-13T03:40:58Z)
EraseDraw: Learning to Insert Objects by Erasing Them from Images [24.55843674256795]
以前の作業は、画像のグローバルな変更、非現実的な空間的な場所へのオブジェクト挿入、不正確な光の詳細の生成によって失敗することが多い。我々は、最先端のモデルではオブジェクト挿入が不十分であるが、オブジェクトを削除し、自然画像の背景を非常によく消し去ることができることを観察した。様々な領域にまたがる多様な挿入プロンプトと画像について,説得力のある結果を示す。
論文参考訳（メタデータ） (2024-08-31T18:37:48Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
Paint by Inpaint: Learning to Add Image Objects by Removing Them First [8.399234415641319]
我々は、画像にオブジェクトを効果的に付加して、塗布過程を逆転させる拡散モデルを訓練する。削除対象の詳細な記述と,これらの記述を多種多様な自然言語命令に変換するための大規模言語モデルを提供する。
論文参考訳（メタデータ） (2024-04-28T15:07:53Z)
Customizing Text-to-Image Diffusion with Camera Viewpoint Control [53.621518249820745]
モデルカスタマイズのためのカメラ視点の明示的な制御を可能にする新しいタスクを導入する。これにより、テキストプロンプトによって、さまざまな背景シーンのオブジェクトプロパティを変更することができます。本稿では,新しいオブジェクトのレンダリング・ビュー依存的な特徴に対して,2次元拡散過程を条件付けることを提案する。
論文参考訳（メタデータ） (2024-04-18T16:59:51Z)
Outline-Guided Object Inpainting with Diffusion Models [11.391452115311798]
インスタンスセグメンテーションデータセットは、正確で堅牢なコンピュータビジョンモデルのトレーニングにおいて重要な役割を果たす。この問題は、小さなアノテーション付きインスタンスセグメンテーションデータセットから始めて、拡張して、サイズが拡大されたアノテーション付きデータセットを取得することで緩和できることを示す。オブジェクトアウトラインの拡散を導くことで,対象クラスでマスク領域を埋めるために,拡散ベースの塗装モデルを用いて新しい画像を生成する。
論文参考訳（メタデータ） (2024-02-26T09:21:17Z)
High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。 CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文参考訳（メタデータ） (2022-11-10T18:58:22Z)
Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文参考訳（メタデータ） (2022-10-18T12:49:04Z)
Scene Graph to Image Generation with Contextualized Object Layout Refinement [92.85331019618332]
シーングラフから画像を生成する新しい手法を提案する。提案手法では,レイアウトのカバレッジを約20ポイント向上し,オブジェクトの重複量を無視できる量に削減する。
論文参考訳（メタデータ） (2020-09-23T06:27:54Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。