論文の概要: Compositional Transformers for Scene Generation
- arxiv url: http://arxiv.org/abs/2111.08960v1
- Date: Wed, 17 Nov 2021 08:11:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 19:20:31.386631
- Title: Compositional Transformers for Scene Generation
- Title(参考訳): シーン生成用合成トランス
- Authors: Drew A. Hudson and C. Lawrence Zitnick
- Abstract要約: 本稿では,生成モデルのための反復的オブジェクト指向変換器であるGANformer2モデルを紹介する。
視覚的品質,多様性,一貫性の観点から,最先端のパフォーマンスを実現していることを示す。
さらなる実験はモデルの絡み合いを実証し、生成過程についてより深い洞察を与える。
- 参考スコア(独自算出の注目度): 13.633811200719627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the GANformer2 model, an iterative object-oriented transformer,
explored for the task of generative modeling. The network incorporates strong
and explicit structural priors, to reflect the compositional nature of visual
scenes, and synthesizes images through a sequential process. It operates in two
stages: a fast and lightweight planning phase, where we draft a high-level
scene layout, followed by an attention-based execution phase, where the layout
is being refined, evolving into a rich and detailed picture. Our model moves
away from conventional black-box GAN architectures that feature a flat and
monolithic latent space towards a transparent design that encourages
efficiency, controllability and interpretability. We demonstrate GANformer2's
strengths and qualities through a careful evaluation over a range of datasets,
from multi-object CLEVR scenes to the challenging COCO images, showing it
successfully achieves state-of-the-art performance in terms of visual quality,
diversity and consistency. Further experiments demonstrate the model's
disentanglement and provide a deeper insight into its generative process, as it
proceeds step-by-step from a rough initial sketch, to a detailed layout that
accounts for objects' depths and dependencies, and up to the final
high-resolution depiction of vibrant and intricate real-world scenes. See
https://github.com/dorarad/gansformer for model implementation.
- Abstract(参考訳): 本稿では,生成モデルのための反復的オブジェクト指向変換器であるGANformer2モデルを紹介する。
このネットワークは、視覚シーンの構成的性質を反映し、連続的なプロセスを通じて画像を合成するために、強靭で明示的な構造的先行を取り入れている。
高速で軽量な計画フェーズで、ハイレベルなシーンレイアウトを作成し、次に注意に基づく実行フェーズでレイアウトを洗練し、リッチで詳細な図に進化させます。
我々のモデルは、フラットでモノリシックな潜在空間を特徴とする従来のブラックボックスGANアーキテクチャから、効率、制御可能性、解釈可能性を促進する透明な設計へと移行します。
マルチオブジェクトのclevrシーンから挑戦的なcocoイメージまで,さまざまなデータセットに対する注意深く評価することで,ganformer2の長所と長所を実証し,視覚品質,多様性,一貫性の観点から最先端のパフォーマンスを達成していることを示す。
さらなる実験では、モデルの絡み合いを実証し、粗い初期スケッチから、オブジェクトの深さと依存関係を考慮に入れた詳細なレイアウト、そして鮮明で複雑な現実世界のシーンの最終的な高解像度な描写まで、その生成過程について深い洞察を与える。
モデル実装はhttps://github.com/dorarad/gansformerを参照。
関連論文リスト
- Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting [47.014044892025346]
Architectは、拡散ベースの2Dイメージのインペイントを活用する、複雑で現実的な3Dエボダイド環境を作成する、生成フレームワークである。
我々のパイプラインはさらに階層的かつ反復的な塗装プロセスに拡張され、大きな家具や小さな物体の配置を連続的に生成し、シーンを豊かにする。
論文 参考訳(メタデータ) (2024-11-14T22:15:48Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - Evolutive Rendering Models [91.99498492855187]
我々は、レンダリングプロセスを通して、動的に進化し適応する能力を持つレンダリングモデルである、テクスタイトボリューティブレンダリングモデルを提案する。
特に,3つの主要レンダリング要素の最適化を可能にする総合的な学習フレームワークを提案する。
安定な目標指向要素の進化を促進するために, 勾配特性の詳細な解析を行う。
論文 参考訳(メタデータ) (2024-05-27T17:40:00Z) - CroCo v2: Improved Cross-view Completion Pre-training for Stereo
Matching and Optical Flow [22.161967080759993]
自己教師付き事前学習法は、ステレオマッチングや光学フローのような密集した幾何学的視覚タスクでは、まだ提供されていない。
我々は、同じシーンから2番目のビューを利用するマスク付き画像モデリングのバリエーションである、最近のクロスビュー補完フレームワークの上に構築する。
本稿では,ステレオマッチングと光学的流れに関する最先端の成果を,従来のタスク固有の手法を使わずに到達できることを初めて示す。
論文 参考訳(メタデータ) (2022-11-18T18:18:53Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - Generative Adversarial Transformers [13.633811200719627]
本稿では,新規かつ効率的な変換器であるGANsformerを紹介し,視覚生成モデリングの課題について検討する。
ネットワークは、線形効率の計算を維持しながら、画像間の長距離相互作用を可能にする二部構造を用いる。
高速な学習とより良いデータ効率を享受しながら、画像品質と多様性の観点から最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-01T18:54:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。