論文の概要: Layout-to-Image Translation with Double Pooling Generative Adversarial
Networks
- arxiv url: http://arxiv.org/abs/2108.12900v1
- Date: Sun, 29 Aug 2021 19:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:40:37.054522
- Title: Layout-to-Image Translation with Double Pooling Generative Adversarial
Networks
- Title(参考訳): 二重プール生成逆数ネットワークを用いたレイアウト・画像変換
- Authors: Hao Tang, Nicu Sebe
- Abstract要約: 入力レイアウトからフォトリアリスティックでセマンティックに一貫性のある結果を生成するための新しいDouble Pooing GAN(DPGAN)を提案する。
また,角形プールモジュール (SPM) と矩形プールモジュール (RPM) からなる新しい二重プールモジュール (DPM) を提案する。
- 参考スコア(独自算出の注目度): 76.83075646527521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the task of layout-to-image translation, which aims
to translate an input semantic layout to a realistic image. One open challenge
widely observed in existing methods is the lack of effective semantic
constraints during the image translation process, leading to models that cannot
preserve the semantic information and ignore the semantic dependencies within
the same object. To address this issue, we propose a novel Double Pooing GAN
(DPGAN) for generating photo-realistic and semantically-consistent results from
the input layout. We also propose a novel Double Pooling Module (DPM), which
consists of the Square-shape Pooling Module (SPM) and the Rectangle-shape
Pooling Module (RPM). Specifically, SPM aims to capture short-range semantic
dependencies of the input layout with different spatial scales, while RPM aims
to capture long-range semantic dependencies from both horizontal and vertical
directions. We then effectively fuse both outputs of SPM and RPM to further
enlarge the receptive field of our generator. Extensive experiments on five
popular datasets show that the proposed DPGAN achieves better results than
state-of-the-art methods. Finally, both SPM and SPM are general and can be
seamlessly integrated into any GAN-based architectures to strengthen the
feature representation. The code is available at
https://github.com/Ha0Tang/DPGAN.
- Abstract(参考訳): 本稿では,入力セマンティックレイアウトをリアルな画像に変換することを目的としたレイアウト・ツー・イメージ翻訳の課題に対処する。
既存の手法で広く見られるオープンな課題は、画像翻訳プロセス中に効果的な意味的制約が欠如していることであり、意味的情報を保存できず、同じオブジェクト内の意味的依存関係を無視するモデルに繋がる。
この問題に対処するために、入力レイアウトからフォトリアリスティックでセマンティックに一貫性のある結果を生成するための新しいDouble Pooing GAN(DPGAN)を提案する。
また,角形プールモジュール (SPM) と矩形プールモジュール (RPM) からなる新しい二重プールモジュール (DPM) を提案する。
具体的には、SPMは入力レイアウトの短い範囲のセマンティック依存関係を異なる空間スケールでキャプチャすることを目的としており、RPMは水平方向と垂直方向の両方から長距離のセマンティック依存関係をキャプチャすることを目的としている。
次に、SPMとRPMの両方の出力を効果的に融合させて、ジェネレータの受容場をさらに拡大する。
5つの一般的なデータセットに対する大規模な実験により、提案したDPGANは最先端の手法よりも優れた結果が得られることが示された。
最後に、spmとspmの両方が一般的であり、機能表現を強化するために任意のganベースのアーキテクチャにシームレスに統合することができる。
コードはhttps://github.com/Ha0Tang/DPGANで公開されている。
関連論文リスト
- Layer-Wise Feature Metric of Semantic-Pixel Matching for Few-Shot Learning [14.627378118194933]
Few-Shot Learningでは、伝統的なメトリクスベースのアプローチは、しばしば類似性を計算するためにグローバルなメトリクスに依存する。
自然界では、キーインスタンスの空間配置は画像間で矛盾することが多い。
本稿では,セマンティック・ピクチャー・マッチングのレイヤワイズ特徴量と呼ばれる新しい手法を提案し,より詳細な比較を行う。
論文 参考訳(メタデータ) (2024-11-10T05:12:24Z) - Learning Enriched Features via Selective State Spaces Model for Efficient Image Deblurring [0.0]
Image Deblurringは、高品質な画像を、それに対応するぼやけた画像から復元することを目的としている。
本稿では、選択状態空間モデルを利用して、リッチで正確な特徴を集約する効率的な画像デブロアリングネットワークを提案する。
実験により,提案手法は広く用いられているベンチマークにおいて,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-29T10:40:41Z) - Tolerating Annotation Displacement in Dense Object Counting via Point
Annotation Probability Map [25.203803417049528]
混雑したシーンでオブジェクトをカウントすることは、コンピュータビジョンにとって依然として難しい課題だ。
学習目標点アノテーション確率マップ(PAPM)を提案する。
また,適応学習型PAPM法(AL-PAPM)を提案する。
論文 参考訳(メタデータ) (2023-07-29T04:46:21Z) - Diffusion Autoencoders: Toward a Meaningful and Decodable Representation [1.471992435706872]
拡散モデル(DPM)は、GANと競合する画像生成において顕著な品質を実現している。
GANとは異なり、DPMは意味的な意味がなく、他のタスクの有用な表現として機能しない潜在変数のセットを使用する。
本稿では,DPMを用いた表現学習の可能性について検討し,自動符号化による入力画像の有意義でデオード可能な表現の抽出を試みている。
論文 参考訳(メタデータ) (2021-11-30T18:24:04Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - DSP: Dual Soft-Paste for Unsupervised Domain Adaptive Semantic
Segmentation [97.74059510314554]
セグメンテーションのための教師なしドメイン適応(UDA)は、ラベル付きソースドメインで訓練されたセグメンテーションモデルをラベル付きターゲットドメインに適応させることを目的としている。
既存の手法では、大きなドメインギャップに悩まされながら、ドメイン不変の特徴を学習しようとする。
本稿では,新しいDual Soft-Paste (DSP)法を提案する。
論文 参考訳(メタデータ) (2021-07-20T16:22:40Z) - BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。
形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。
提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T04:58:51Z) - Dual Attention GANs for Semantic Image Synthesis [101.36015877815537]
本稿では,写真リアリスティック・セマンティック・一貫性のあるイメージを合成するための新しいデュアルアテンションGAN(DAGAN)を提案する。
また,2つの新しいモジュール,すなわち位置対応空間アテンションモジュール(SAM)と規模対応チャネルアテンションモジュール(CAM)を提案する。
DAGANは、より少ないモデルパラメータを使用しながら、最先端のメソッドよりも驚くほど優れた結果が得られる。
論文 参考訳(メタデータ) (2020-08-29T17:49:01Z) - Prototype Mixture Models for Few-shot Semantic Segmentation [50.866870384596446]
サポートやクエリ画像内のオブジェクトが外観やポーズで大きく異なる可能性があるため、ショットのセグメンテーションは難しい。
プロトタイプベースセマンティック表現を強制するために,多種多様な画像領域と複数のプロトタイプとの相関関係を持つプロトタイプ混合モデル(PMMs)を提案する。
PMMはMS-COCOの5ショットセグメンテーション性能を最大5.82%改善し、モデルサイズと推論速度の適度なコストに留まった。
論文 参考訳(メタデータ) (2020-08-10T04:33:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。