論文の概要: MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2404.02790v1
- Date: Wed, 3 Apr 2024 14:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 17:01:36.477668
- Title: MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation
- Title(参考訳): MULAN:制御可能なテキスト・画像生成のための多層アノテートデータセット
- Authors: Petru-Daniel Tudosiu, Yongxin Yang, Shifeng Zhang, Fei Chen, Steven McDonagh, Gerasimos Lampouras, Ignacio Iacobacci, Sarah Parisot,
- Abstract要約: 44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
- 参考スコア(独自算出の注目度): 54.64194935409982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image generation has achieved astonishing results, yet precise spatial controllability and prompt fidelity remain highly challenging. This limitation is typically addressed through cumbersome prompt engineering, scene layout conditioning, or image editing techniques which often require hand drawn masks. Nonetheless, pre-existing works struggle to take advantage of the natural instance-level compositionality of scenes due to the typically flat nature of rasterized RGB output images. Towards adressing this challenge, we introduce MuLAn: a novel dataset comprising over 44K MUlti-Layer ANnotations of RGB images as multilayer, instance-wise RGBA decompositions, and over 100K instance images. To build MuLAn, we developed a training free pipeline which decomposes a monocular RGB image into a stack of RGBA layers comprising of background and isolated instances. We achieve this through the use of pretrained general-purpose models, and by developing three modules: image decomposition for instance discovery and extraction, instance completion to reconstruct occluded areas, and image re-assembly. We use our pipeline to create MuLAn-COCO and MuLAn-LAION datasets, which contain a variety of image decompositions in terms of style, composition and complexity. With MuLAn, we provide the first photorealistic resource providing instance decomposition and occlusion information for high quality images, opening up new avenues for text-to-image generative AI research. With this, we aim to encourage the development of novel generation and editing technology, in particular layer-wise solutions. MuLAn data resources are available at https://MuLAn-dataset.github.io/.
- Abstract(参考訳): テキスト・ツー・イメージ生成は驚くべき結果を得たが、正確な空間制御性と迅速な忠実性は非常に難しいままである。
この制限は、しばしば手書きのマスクを必要とする、面倒なプロンプトエンジニアリング、シーンレイアウトコンディショニング、画像編集技術によって対処される。
それでも、既存の作品は、ラスタライズされたRGB出力画像の典型的な平坦な性質のために、シーンの自然なインスタンスレベルの構成性を活用するのに苦労している。
44K MUlti-Layer Annotations of RGB images as multilayer, instance-wise RGBA decompositions, and over 100K instance images。
MuLAn を構築するために,単分子 RGB 画像を背景および孤立インスタンスからなる RGBA レイヤのスタックに分解する学習自由パイプラインを開発した。
これを実現するために,事前学習された汎用モデルを用いて,画像の探索と抽出のための画像分解,隠蔽領域の再構築のための例補完,画像再構成という3つのモジュールを開発する。
パイプラインを使用してMuLAn-COCOとMuLAn-LAIONデータセットを作成します。
MuLAnでは、高品質な画像のインスタンス分解と隠蔽情報を提供する最初のフォトリアリスティックリソースを提供し、テキストから画像への生成AI研究のための新たな道を開く。
これにより,新しい生成・編集技術,特にレイヤワイドソリューションの開発が促進される。
MuLAnのデータリソースはhttps://MuLAn-dataset.github.io/.comで入手できる。
関連論文リスト
- Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - Using latent space regression to analyze and leverage compositionality
in GANs [33.381584322411626]
GANの組成特性を理解するためのプローブとして潜在空間への回帰を研究する。
reressorとプリトレーニングされたジェネレータを組み合わせることで、強いイメージを事前に提供し、複合イメージを作成できることが分かりました。
回帰アプローチは,潜在空間での直接編集と比較して,個々の画像部分の局所的な編集を可能にする。
論文 参考訳(メタデータ) (2021-03-18T17:58:01Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。