論文の概要: Dolfin: Diffusion Layout Transformers without Autoencoder
- arxiv url: http://arxiv.org/abs/2310.16305v1
- Date: Wed, 25 Oct 2023 02:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 17:05:51.929946
- Title: Dolfin: Diffusion Layout Transformers without Autoencoder
- Title(参考訳): dolfin: オートエンコーダのない拡散レイアウトトランスフォーマー
- Authors: Yilin Wang, Zeyuan Chen, Liangjun Zhong, Zheng Ding, Zhizhou Sha,
Zhuowen Tu
- Abstract要約: 自動エンコーダを持たない拡散レイアウト変換器(Dolfin)を新たに導入する。
Dolfinは、既存の方法と比較して、複雑さを減らしてモデリング能力を大幅に改善する。
本実験はDolfinの利点を示すために定性的および定量的な結果を示した。
- 参考スコア(独自算出の注目度): 44.1060861526844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel generative model, Diffusion Layout
Transformers without Autoencoder (Dolfin), which significantly improves the
modeling capability with reduced complexity compared to existing methods.
Dolfin employs a Transformer-based diffusion process to model layout
generation. In addition to an efficient bi-directional (non-causal joint)
sequence representation, we further propose an autoregressive diffusion model
(Dolfin-AR) that is especially adept at capturing rich semantic correlations
for the neighboring objects, such as alignment, size, and overlap. When
evaluated against standard generative layout benchmarks, Dolfin notably
improves performance across various metrics (fid, alignment, overlap, MaxIoU
and DocSim scores), enhancing transparency and interoperability in the process.
Moreover, Dolfin's applications extend beyond layout generation, making it
suitable for modeling geometric structures, such as line segments. Our
experiments present both qualitative and quantitative results to demonstrate
the advantages of Dolfin.
- Abstract(参考訳): 本稿では,新しい生成モデルであるautoencoderのない拡散レイアウトトランスフォーマ(dolfin)について紹介する。
dolfinはトランスフォーマーベースの拡散プロセスを使用してレイアウト生成をモデル化する。
効率の良い双方向(非因果継手)配列表現に加えて,特にアライメント,サイズ,重なりなど,隣接するオブジェクトに対するリッチなセマンティックな相関を捉えることが可能な自己回帰拡散モデル(Dolfin-AR)を提案する。
標準的な生成的レイアウトベンチマークに対して評価すると、Dolfinはさまざまなメトリクス(ファイド、アライメント、オーバーラップ、MaxIoU、DocSimスコア)のパフォーマンスを改善し、プロセスの透明性と相互運用性を向上させる。
さらに、dolfinのアプリケーションはレイアウト生成を超えて拡張され、線分のような幾何学的構造のモデリングに適している。
本実験はDolfinの利点を示すために定性的および定量的な結果を示した。
関連論文リスト
- DeFoG: Discrete Flow Matching for Graph Generation [45.037260759871124]
グラフ生成のための離散フローマッチングを用いた新しいフレームワークであるDeFoGを提案する。
DeFoGはフローベースのアプローチを採用しており、効率的な線形雑音化プロセスと柔軟な雑音化プロセスを備えている。
我々は,DeFoGが合成および分子データセット上で最先端の結果を得ることを示す。
論文 参考訳(メタデータ) (2024-10-05T18:52:54Z) - Fisher Flow Matching for Generative Modeling over Discrete Data [12.69975914345141]
離散データのための新しいフローマッチングモデルであるFisher-Flowを紹介する。
Fisher-Flowは、離散データ上のカテゴリー分布を考慮し、明らかに幾何学的な視点を採っている。
Fisher-Flowにより誘導される勾配流は, 前方KLの発散を低減するのに最適であることを示す。
論文 参考訳(メタデータ) (2024-05-23T15:02:11Z) - Guided Flows for Generative Modeling and Decision Making [55.42634941614435]
その結果,ガイドフローは条件付き画像生成やゼロショット音声合成におけるサンプル品質を著しく向上させることがわかった。
特に、我々は、拡散モデルと比較して、オフライン強化学習設定axスピードアップにおいて、まず、計画生成にフローモデルを適用する。
論文 参考訳(メタデータ) (2023-11-22T15:07:59Z) - LayoutDM: Transformer-based Diffusion Model for Layout Generation [0.6445605125467572]
高品質な画像を生成するためにトランスフォーマーベース拡散モデル(DDPM)を提案する。
雑音配置データからサンプルを生成するために,トランスフォーマを用いた条件付きレイアウトデノイザを提案する。
本手法は, 品質と多様性の観点から, 最先端の生成モデルより優れる。
論文 参考訳(メタデータ) (2023-05-04T05:51:35Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Deep Variational Models for Collaborative Filtering-based Recommender
Systems [63.995130144110156]
ディープラーニングは、リコメンダシステムの結果を改善するために、正確な協調フィルタリングモデルを提供する。
提案するモデルは, 深層建築の潜伏空間において, 変分概念を注入性に適用する。
提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-07-27T08:59:39Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。