論文の概要: Label-free Neural Semantic Image Synthesis
- arxiv url: http://arxiv.org/abs/2407.01790v1
- Date: Mon, 1 Jul 2024 20:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 19:23:01.123146
- Title: Label-free Neural Semantic Image Synthesis
- Title(参考訳): ラベルなしニューラルセマンティック画像合成
- Authors: Jiayi Wang, Kevin Alexander Laube, Yumeng Li, Jan Hendrik Metzen, Shin-I Cheng, Julio Borges, Anna Khoreva,
- Abstract要約: 本稿では,事前学習した基礎モデルから抽出したニューラルネットワークレイアウトを条件付けとして,ニューラルセマンティック画像合成の概念を導入する。
ニューラルセマンティック画像合成により合成された画像が、セマンティッククラスの類似あるいは優れた画素レベルのアライメントを実現することを実験的に示す。
ニューラルレイアウト条件付けによって生成された画像は、様々な知覚タスクを訓練するための実データを効果的に増強できることを示す。
- 参考スコア(独自算出の注目度): 12.194020204848492
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent work has shown great progress in integrating spatial conditioning to control large, pre-trained text-to-image diffusion models. Despite these advances, existing methods describe the spatial image content using hand-crafted conditioning inputs, which are either semantically ambiguous (e.g., edges) or require expensive manual annotations (e.g., semantic segmentation). To address these limitations, we propose a new label-free way of conditioning diffusion models to enable fine-grained spatial control. We introduce the concept of neural semantic image synthesis, which uses neural layouts extracted from pre-trained foundation models as conditioning. Neural layouts are advantageous as they provide rich descriptions of the desired image, containing both semantics and detailed geometry of the scene. We experimentally show that images synthesized via neural semantic image synthesis achieve similar or superior pixel-level alignment of semantic classes compared to those created using expensive semantic label maps. At the same time, they capture better semantics, instance separation, and object orientation than other label-free conditioning options, such as edges or depth. Moreover, we show that images generated by neural layout conditioning can effectively augment real data for training various perception tasks.
- Abstract(参考訳): 最近の研究は、空間条件の統合において、大規模で訓練済みのテキスト-画像拡散モデルを制御する大きな進歩を示している。
これらの進歩にもかかわらず、既存の手法では、意味的に曖昧な(例えばエッジ)か、高価な手動アノテーション(例えばセマンティックセグメンテーション)を必要とする手作り条件入力を用いて空間画像の内容を記述する。
これらの制約に対処するため,空間制御の微粒化を実現するため,ラベルフリーな拡散モデルを提案する。
本稿では,事前学習した基礎モデルから抽出したニューラルネットワークレイアウトを条件付けとして,ニューラルセマンティック画像合成の概念を導入する。
ニューラルレイアウトは、シーンのセマンティクスと詳細な幾何学の両方を含む、望ましいイメージの豊富な記述を提供するため、有利である。
ニューラルネットワークによる画像合成により合成された画像は,高価なセマンティック・ラベル・マップを用いた画像と同等あるいは優れたセマンティック・クラスのアライメントを実現することを実験的に示す。
同時に、エッジや深さといった他のラベルのない条件付けオプションよりも、セマンティクス、インスタンス分離、オブジェクトの向きが優れている。
さらに,ニューラルレイアウト・コンディショニングによって生成された画像は,様々な知覚タスクを訓練するための実データを効果的に増強することができることを示す。
関連論文リスト
- PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis [62.29033292210752]
一貫性のあるセマンティクスとレイアウトを備えた高品質なイメージは依然として課題である。
本稿では,前述した問題を緩和するために,事前学習モデルを利用したadaPtive LAyout-semantiC fusion modulE (PLACE)を提案する。
われわれのアプローチは、視覚的品質、セマンティック一貫性、レイアウトアライメントの観点から好意的に機能する。
論文 参考訳(メタデータ) (2024-03-04T09:03:16Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Hierarchical Diffusion Autoencoders and Disentangled Image Manipulation [36.20575570779196]
拡散モデルの潜在空間に対して,細粒度から細粒度まで,低レベルから高レベルの特徴階層を利用する。
HDAEの階層的潜在空間は本質的に異なる抽象的な意味論のレベルを符号化し、より包括的な意味表現を提供する。
提案手法の有効性を実験的に検証し,画像再構成,スタイル混合,制御可能,ディテール保存,不整合な画像操作に応用した。
論文 参考訳(メタデータ) (2023-04-24T05:35:59Z) - Comprehending and Ordering Semantics for Image Captioning [124.48670699658649]
我々はトランスフォーマー型構造,すなわちComprehending and Ordering Semantics Networks (COS-Net) の新たなレシピを提案する。
COS-Netは、豊富なセマンティックコンプレッディングと学習可能なセマンティックオーダリングプロセスを単一のアーキテクチャに統合する。
論文 参考訳(メタデータ) (2022-06-14T15:51:14Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - In-Place Scene Labelling and Understanding with Implicit Scene
Representation [39.73806072862176]
ニューラルラジアンスフィールド(NeRF)を拡張して、外観とジオメトリでセマンティクスを共同エンコードします。
ルームスケールのシーンでは、ラベルがスパースまたは非常に騒々しい場合、このアプローチの利点を示します。
論文 参考訳(メタデータ) (2021-03-29T18:30:55Z) - Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis [194.1452124186117]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
我々のECGANは最先端の手法よりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2020-03-31T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。