論文の概要: ALR-GAN: Adaptive Layout Refinement for Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2304.06297v1
- Date: Thu, 13 Apr 2023 07:07:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 15:32:06.987408
- Title: ALR-GAN: Adaptive Layout Refinement for Text-to-Image Synthesis
- Title(参考訳): ALR-GAN:テキスト・画像合成のための適応レイアウトリファインメント
- Authors: Hongchen Tan, Baocai Yin, Kun Wei, Xiuping Liu, Xin Li
- Abstract要約: 本稿では,新たなテキスト・画像生成ネットワークである適応レイアウトリファインメント生成支援ネットワーク(ALR-GAN)を提案する。
ALR-GANは、Adaptive Layout Refinement (ALR)モジュールとLayout Visual Refinement (LVR)損失を含む。
ALR-GANはテキスト・ツー・イメージ生成タスクにおいて競合的に動作することを示す。
- 参考スコア(独自算出の注目度): 42.86424135174045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel Text-to-Image Generation Network, Adaptive Layout
Refinement Generative Adversarial Network (ALR-GAN), to adaptively refine the
layout of synthesized images without any auxiliary information. The ALR-GAN
includes an Adaptive Layout Refinement (ALR) module and a Layout Visual
Refinement (LVR) loss. The ALR module aligns the layout structure (which refers
to locations of objects and background) of a synthesized image with that of its
corresponding real image. In ALR module, we proposed an Adaptive Layout
Refinement (ALR) loss to balance the matching of hard and easy features, for
more efficient layout structure matching. Based on the refined layout
structure, the LVR loss further refines the visual representation within the
layout area. Experimental results on two widely-used datasets show that ALR-GAN
performs competitively at the Text-to-Image generation task.
- Abstract(参考訳): 本稿では,合成画像のレイアウトを補助情報なしで適応的に洗練するために,新しいテキスト対画像生成ネットワークである適応レイアウト改善生成逆ネットワーク(alr-gan)を提案する。
ALR-GANは、Adaptive Layout Refinement (ALR)モジュールとLayout Visual Refinement (LVR)損失を含む。
alrモジュールは、合成画像のレイアウト構造(オブジェクトと背景の位置を指す)と、対応する実画像のレイアウト構造とを整合させる。
ALRモジュールでは、より効率的なレイアウト構造マッチングのために、困難かつ容易な特徴のマッチングのバランスをとるために、適応レイアウトリファインメント(ALR)損失を提案する。
改良されたレイアウト構造に基づいて、LVR損失はレイアウト領域内の視覚的表現をさらに洗練する。
ALR-GANはテキスト・画像生成タスクにおいて競合的に動作することを示す。
関連論文リスト
- Self-supervised Photographic Image Layout Representation Learning [5.009120058742792]
我々は,不均一なレイアウトグラフを正確に,次元的に再現されたレイアウト表現に圧縮する,オートエンコーダに基づくネットワークアーキテクチャを開発した。
より広い範囲のレイアウトカテゴリとよりリッチなセマンティクスを備えたLODBデータセットを紹介します。
このデータセットに対する広範な実験は、写真画像レイアウト表現学習の領域における我々のアプローチの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-03-06T14:28:53Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - Spectral Normalization and Dual Contrastive Regularization for
Image-to-Image Translation [9.029227024451506]
二重コントラスト正規化とスペクトル正規化に基づく新しい未ペアI2I翻訳フレームワークを提案する。
SN-DCRの有効性を評価するための総合的な実験を行い、本手法が複数のタスクにおいてSOTAを実現することを実証した。
論文 参考訳(メタデータ) (2023-04-22T05:22:24Z) - ReGANIE: Rectifying GAN Inversion Errors for Accurate Real Image Editing [20.39792009151017]
StyleGANは、セマンティックリッチな潜在スタイル空間を操作することで、生成した画像の柔軟で妥当な編集を可能にする。
実際の画像をその潜在空間に投影することは、反転品質と編集性の間に固有のトレードオフに遭遇する。
本稿では,2つの異なるネットワークをそれぞれ編集と再構築に用い,新しい2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-31T04:38:42Z) - Geometry Aligned Variational Transformer for Image-conditioned Layout
Generation [38.747175229902396]
画像中の様々なレイアウトを自動回帰的に生成するICVT(Image-Conditioned Variational Transformer)を提案する。
まず、レイアウト要素内のコンテキスト関係をモデル化するために自己認識機構を採用し、一方、クロスアテンション機構は条件付き画像の視覚情報を融合するために使用される。
広告ポスターレイアウト設計データセットを大規模に構築し,微妙なレイアウトと鮮度マップアノテーションを付加する。
論文 参考訳(メタデータ) (2022-09-02T07:19:12Z) - Robust Reference-based Super-Resolution via C2-Matching [77.51610726936657]
超解像(Ref-SR)は、最近、高分解能(HR)参照画像を導入して、低分解能(LR)入力画像を強化するための有望なパラダイムとして登場した。
既存のRef-SR法は主に暗黙の対応に頼り、参照画像からHRテクスチャを借用し、入力画像の情報損失を補う。
本稿では,C2-Matchingを提案する。
論文 参考訳(メタデータ) (2021-06-03T16:40:36Z) - Deep Selective Combinatorial Embedding and Consistency Regularization
for Light Field Super-resolution [93.95828097088608]
ハンドヘルドデバイスが取得した光フィールド(LF)画像は通常、空間分解能の低下に悩まされる。
LF画像の高次元特性と複雑な幾何学構造は、従来の単一像SRよりも問題をより困難にしている。
本稿では,LFサブアパーチャ画像間のコヒーレンスを探索するための,新しい学習ベースLF空間SRフレームワークを提案する。
合成および実世界のLFデータセットに対する実験結果は、最先端手法に対する我々のアプローチの顕著な利点を示している。
論文 参考訳(メタデータ) (2020-09-26T08:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。