論文の概要: Variational Transformer Networks for Layout Generation
- arxiv url: http://arxiv.org/abs/2104.02416v1
- Date: Tue, 6 Apr 2021 10:45:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:20:59.662961
- Title: Variational Transformer Networks for Layout Generation
- Title(参考訳): レイアウト生成のための変分トランスネットワーク
- Authors: Diego Martin Arroyo, Janis Postels and Federico Tombari
- Abstract要約: レイアウトにおける要素間の関係を捉えるために,自己対応層の特性を利用する。
提案する変分変換ネットワーク(VTN)は,明示的な監督なしにマージン,アライメント,その他のグローバルな設計規則を学習することができる。
- 参考スコア(独自算出の注目度): 39.25496294840713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models able to synthesize layouts of different kinds (e.g.
documents, user interfaces or furniture arrangements) are a useful tool to aid
design processes and as a first step in the generation of synthetic data, among
other tasks. We exploit the properties of self-attention layers to capture high
level relationships between elements in a layout, and use these as the building
blocks of the well-known Variational Autoencoder (VAE) formulation. Our
proposed Variational Transformer Network (VTN) is capable of learning margins,
alignments and other global design rules without explicit supervision. Layouts
sampled from our model have a high degree of resemblance to the training data,
while demonstrating appealing diversity. In an extensive evaluation on publicly
available benchmarks for different layout types VTNs achieve state-of-the-art
diversity and perceptual quality. Additionally, we show the capabilities of
this method as part of a document layout detection pipeline.
- Abstract(参考訳): 異なる種類のレイアウト(例えば、)を合成できる生成モデル。
文書、ユーザインターフェース、家具の配置は、設計プロセスを助け、合成データの生成の第1ステップとして、その他のタスクにおいて有用なツールである。
レイアウト中の要素間の高レベルな関係を捉えるために,自己注意層の特性を活用し,よく知られた変分オートエンコーダ(VAE)の構成要素として利用する。
提案する変分変換ネットワーク(VTN)は,明示的な監督なしにマージン,アライメント,その他のグローバルな設計規則を学習することができる。
我々のモデルから採取したレイアウトは、トレーニングデータと高い類似性を示しながら、魅力的な多様性を示している。
異なるレイアウトタイプのVTNに対する公開ベンチマークに関する広範な評価では、最先端の多様性と知覚品質が得られる。
さらに,文書レイアウト検出パイプラインの一部として,本手法の有効性を示す。
関連論文リスト
- PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM [58.67882997399021]
本研究では,グラフィックレイアウトの自動生成のための統合フレームワークを提案する。
データ駆動方式では、レイアウトを生成するために構造化テキスト(JSONフォーマット)とビジュアルインストラクションチューニングを用いる。
我々は、大規模な実験を行い、パブリックなマルチモーダルレイアウト生成ベンチマーク上で、最先端(SOTA)性能を達成した。
論文 参考訳(メタデータ) (2024-06-05T03:05:52Z) - Multi-Modal Knowledge Graph Transformer Framework for Multi-Modal Entity
Alignment [17.592908862768425]
そこで我々はMoAlignと呼ばれる新しいMMEA変換器を提案し,その特徴,マルチモーダル属性,エンティティタイプを階層的に導入する。
変換器の複数の情報をよりよく統合する能力を利用して、変換器エンコーダの階層的修飾自己保持ブロックを設計する。
当社のアプローチは強力な競争相手よりも優れ,優れたエンティティアライメント性能を実現している。
論文 参考訳(メタデータ) (2023-10-10T07:06:06Z) - LayoutDM: Transformer-based Diffusion Model for Layout Generation [0.6445605125467572]
高品質な画像を生成するためにトランスフォーマーベース拡散モデル(DDPM)を提案する。
雑音配置データからサンプルを生成するために,トランスフォーマを用いた条件付きレイアウトデノイザを提案する。
本手法は, 品質と多様性の観点から, 最先端の生成モデルより優れる。
論文 参考訳(メタデータ) (2023-05-04T05:51:35Z) - Unifying Layout Generation with a Decoupled Diffusion Model [26.659337441975143]
これは、出版物、文書、ユーザーインターフェース(UI)などのフォーマットされたシーンに対する重厚なグラフィックデザイン作業の負担を軽減するための重要なタスクである。
単一分離拡散モデルでそのような統一を実現するためのレイアウト拡散生成モデル(LDGM)を提案する。
提案するLDGMは,任意の属性に対してスクラッチあるいは条件付きでレイアウトを生成することができる。
論文 参考訳(メタデータ) (2023-03-09T05:53:32Z) - Demystify Transformers & Convolutions in Modern Image Deep Networks [82.32018252867277]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
各種課題の実験と帰納的バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-10T18:59:43Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Point Cloud Learning with Transformer [2.3204178451683264]
我々は,マルチレベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる新しいフレームワークを提案する。
具体的には、点ピラミッド変換器を用いて、多様な分解能やスケールを持つ特徴をモデル化する。
マルチレベルトランスモジュールは、各スケールの異なるレベルからコンテキスト情報を集約し、それらの相互作用を強化するように設計されている。
論文 参考訳(メタデータ) (2021-04-28T08:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。