論文の概要: Modeling Image Composition for Complex Scene Generation
- arxiv url: http://arxiv.org/abs/2206.00923v1
- Date: Thu, 2 Jun 2022 08:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 14:37:22.356190
- Title: Modeling Image Composition for Complex Scene Generation
- Title(参考訳): 複雑なシーン生成のためのモデリング画像合成
- Authors: Zuopeng Yang, Daqing Liu, Chaoyue Wang, Jie Yang, Dacheng Tao
- Abstract要約: 本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
- 参考スコア(独自算出の注目度): 77.10533862854706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method that achieves state-of-the-art results on challenging
(few-shot) layout-to-image generation tasks by accurately modeling textures,
structures and relationships contained in a complex scene. After compressing
RGB images into patch tokens, we propose the Transformer with Focal Attention
(TwFA) for exploring dependencies of object-to-object, object-to-patch and
patch-to-patch. Compared to existing CNN-based and Transformer-based generation
models that entangled modeling on pixel-level&patch-level and
object-level&patch-level respectively, the proposed focal attention predicts
the current patch token by only focusing on its highly-related tokens that
specified by the spatial layout, thereby achieving disambiguation during
training. Furthermore, the proposed TwFA largely increases the data efficiency
during training, therefore we propose the first few-shot complex scene
generation strategy based on the well-trained TwFA. Comprehensive experiments
show the superiority of our method, which significantly increases both
quantitative metrics and qualitative visual realism with respect to
state-of-the-art CNN-based and transformer-based methods. Code is available at
https://github.com/JohnDreamer/TwFA.
- Abstract(参考訳): 本稿では,複雑なシーンに含まれるテクスチャ,構造,関係を正確にモデル化することにより,映像のレイアウト・画像生成に挑戦する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
画素レベル・パッチレベルとオブジェクトレベル・パッチレベルをモデリングする既存のCNNベースおよびトランスフォーマーベース生成モデルと比較して、提案手法は空間レイアウトで指定された高関連トークンのみに着目して現在のパッチトークンを予測し、トレーニング中の曖昧さを実現する。
さらに,提案するtwfaはトレーニング中のデータ効率を著しく向上させるため,訓練されたtwfaに基づく最初の数ショット複合シーン生成戦略を提案する。
総合実験の結果, 定量的指標と質的視覚リアリズムの両方を, 最先端のcnn法とトランスフォーマー法で大幅に向上させた。
コードはhttps://github.com/JohnDreamer/TwFA.comで入手できる。
関連論文リスト
- ObjBlur: A Curriculum Learning Approach With Progressive Object-Level Blurring for Improved Layout-to-Image Generation [7.645341879105626]
レイアウト・ツー・イメージ生成モデルを改善するための新しいカリキュラム学習手法であるBlurを提案する。
提案手法は,プログレッシブオブジェクトレベルのぼかしをベースとして,トレーニングを効果的に安定化し,生成画像の品質を向上させる。
論文 参考訳(メタデータ) (2024-04-11T08:50:12Z) - Fiducial Focus Augmentation for Facial Landmark Detection [4.433764381081446]
本稿では,モデルによる顔構造理解を高めるために,新しい画像強調手法を提案する。
我々は,Deep Canonical correlation Analysis (DCCA) に基づく損失を考慮した,シームズアーキテクチャに基づくトレーニング機構を採用している。
提案手法は,様々なベンチマークデータセットにおいて,最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T01:34:00Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Foreground-aware Semantic Representations for Image Harmonization [5.156484100374058]
本稿では,事前学習型分類ネットワークによって学習された高レベルの特徴空間を利用する新しいアーキテクチャを提案する。
既存の画像調和ベンチマークにおいて提案手法を広範に評価し,MSEとPSNRの指標から新たな最先端の手法を構築した。
論文 参考訳(メタデータ) (2020-06-01T09:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。