論文の概要: LSReGen: Large-Scale Regional Generator via Backward Guidance Framework
- arxiv url: http://arxiv.org/abs/2407.15066v1
- Date: Sun, 21 Jul 2024 05:44:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 19:28:49.222838
- Title: LSReGen: Large-Scale Regional Generator via Backward Guidance Framework
- Title(参考訳): LSReGen: 後方誘導フレームワークによる大規模地域発電機
- Authors: Bowen Zhang, Cheng Yang, Xuanhui Liu,
- Abstract要約: 制御可能な画像生成は 依然として課題です
トレーニング、前方指導、後方指導といった現在の手法には、顕著な制限がある。
本稿では,後方誘導の一般的な解釈を提供する新しい制御可能な生成フレームワークを提案する。
本稿では,高品質でレイアウトに適合した画像を生成するための大規模なレイアウト・ツー・イメージ手法であるLSReGenを紹介する。
- 参考スコア(独自算出の注目度): 12.408195812609042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, advancements in AIGC (Artificial Intelligence Generated Content) technology have significantly enhanced the capabilities of large text-to-image models. Despite these improvements, controllable image generation remains a challenge. Current methods, such as training, forward guidance, and backward guidance, have notable limitations. The first two approaches either demand substantial computational resources or produce subpar results. The third approach depends on phenomena specific to certain model architectures, complicating its application to large-scale image generation.To address these issues, we propose a novel controllable generation framework that offers a generalized interpretation of backward guidance without relying on specific assumptions. Leveraging this framework, we introduce LSReGen, a large-scale layout-to-image method designed to generate high-quality, layout-compliant images. Experimental results show that LSReGen outperforms existing methods in the large-scale layout-to-image task, underscoring the effectiveness of our proposed framework. Our code and models will be open-sourced.
- Abstract(参考訳): 近年,AIGC(Artificial Intelligence Generated Content)技術の進歩により,大規模テキスト画像モデルの能力が大幅に向上している。
これらの改善にもかかわらず、制御可能な画像生成は依然として課題である。
トレーニング、前方指導、後方指導といった現在の手法には、顕著な制限がある。
最初の2つのアプローチは、かなりの計算資源を必要とするか、サブパー結果を生成するかのいずれかである。
第3のアプローチは,特定のモデルアーキテクチャに特有の現象に依存し,大規模画像生成への応用を複雑にしている。
このフレームワークを応用したLSReGenは、高品質でレイアウトに適合した画像を生成するために設計された大規模なレイアウト・ツー・イメージ方式である。
実験の結果,LSReGenは大規模レイアウト・イメージタスクにおいて既存の手法よりも優れており,提案フレームワークの有効性を裏付けている。
私たちのコードとモデルはオープンソースになります。
関連論文リスト
- CART: Compositional Auto-Regressive Transformer for Image Generation [2.5563396001349297]
本稿では,自動回帰(AR)モデリングを用いた画像生成手法を提案する。
提案手法は,画像に細かな細部を合成的に繰り返し付加することにより,これらの課題に対処する。
この戦略は従来の次世代予測よりも効果的であることが示され、最先端の次世代予測アプローチを超えている。
論文 参考訳(メタデータ) (2024-11-15T13:29:44Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - GLEAN: Generative Latent Bank for Image Super-Resolution and Beyond [99.6233044915999]
画像超解像の性能向上のために,StyleGAN や BigGAN などの事前学習型生成支援ネットワーク (GAN) が潜時バンクとして利用できることを示す。
我々の手法であるGenerative LatEnt bANk(GLEAN)は、事前訓練されたGANにカプセル化されているリッチで多様な事前情報を直接活用することで、既存のプラクティスを越えている。
画像のカラー化やブラインド画像の復元など,さまざまなタスクにメソッドを拡張し,提案手法が既存の手法と比較して良好に動作することを示す。
論文 参考訳(メタデータ) (2022-07-29T17:59:01Z) - A Survey on Leveraging Pre-trained Generative Adversarial Networks for
Image Editing and Restoration [72.17890189820665]
GAN(Generative Adversarial Network)は、単純だが効果的なトレーニング機構と優れた画像生成品質により、大きな注目を集めている。
近年のGANモデルは生成した画像と実際の画像とのギャップを大幅に狭めている。
近年の多くの研究は、未学習のGANモデルと学習されたGAN先行空間を生かして、事前学習されたGANモデルを活用することへの関心が高まっている。
論文 参考訳(メタデータ) (2022-07-21T05:05:58Z) - PAGER: Progressive Attribute-Guided Extendable Robust Image Generation [38.484332924924914]
本研究は,連続的部分空間学習(SSL)に基づく生成的モデリング手法を提案する。
文献のほとんどの生成モデルとは異なり,本手法では,基盤となるソース分布の解析や画像の合成にはニューラルネットワークを使用しない。
プログレッシブ誘導伸縮性画像生成(R)モデルと呼ばれるこの手法は、数学的透明性、プログレッシブコンテンツ生成、トレーニング時間の短縮、トレーニングサンプルの少ないロバストパフォーマンス、条件付き画像生成への拡張性に利点がある。
論文 参考訳(メタデータ) (2022-06-01T00:35:42Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z) - Improved Image Generation via Sparse Modeling [27.66648389933265]
生成器は、Convolutional Sparse Coding (CSC) とそのMulti-Layeredバージョン (ML-CSC) 合成プロセスの発現として見ることができる。
この観測は、発電機内の適切な選択された活性化層にスパーシファイング正規化を明示的に強制することによって活用する。
論文 参考訳(メタデータ) (2021-04-01T13:52:40Z) - GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution [85.53811497840725]
我々は,大因子画像超解像(SR)の復元品質を向上させるために,GAN(Generative Adversarial Networks),例えばStyleGAN(StyleGAN)が潜時バンクとして使用できることを示す。
我々の手法であるGenerative LatEnt bANk(GLEAN)は、事前訓練されたGANにカプセル化されているリッチで多様な事前情報を直接活用することで、既存のプラクティスを越えている。
GLEANによってアップスケールされた画像は、既存の方法と比較して忠実さとテクスチャ忠実さの点で明らかに改善されている。
論文 参考訳(メタデータ) (2020-12-01T18:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。