論文の概要: Spot the Error: Non-autoregressive Graphic Layout Generation with
Wireframe Locator
- arxiv url: http://arxiv.org/abs/2401.16375v1
- Date: Mon, 29 Jan 2024 18:13:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 13:40:50.711957
- Title: Spot the Error: Non-autoregressive Graphic Layout Generation with
Wireframe Locator
- Title(参考訳): Spot the Error: Wireframe Locatorを用いた非自己回帰グラフレイアウト生成
- Authors: Jieru Lin, Danqing Huang, Tiejun Zhao, Dechen Zhan, Chin-Yew Lin
- Abstract要約: 生成したレイアウトシーケンスから描画されたワイヤフレームイメージを入力として、誤トークンを検出する学習ベースのロケータを提案する。
オブジェクト空間における要素列の相補的モダリティとして機能し、全体的な性能に大きく貢献することを示す。
- 参考スコア(独自算出の注目度): 37.65937921431886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layout generation is a critical step in graphic design to achieve meaningful
compositions of elements. Most previous works view it as a sequence generation
problem by concatenating element attribute tokens (i.e., category, size,
position). So far the autoregressive approach (AR) has achieved promising
results, but is still limited in global context modeling and suffers from error
propagation since it can only attend to the previously generated tokens. Recent
non-autoregressive attempts (NAR) have shown competitive results, which
provides a wider context range and the flexibility to refine with iterative
decoding. However, current works only use simple heuristics to recognize
erroneous tokens for refinement which is inaccurate. This paper first conducts
an in-depth analysis to better understand the difference between the AR and NAR
framework. Furthermore, based on our observation that pixel space is more
sensitive in capturing spatial patterns of graphic layouts (e.g., overlap,
alignment), we propose a learning-based locator to detect erroneous tokens
which takes the wireframe image rendered from the generated layout sequence as
input. We show that it serves as a complementary modality to the element
sequence in object space and contributes greatly to the overall performance.
Experiments on two public datasets show that our approach outperforms both AR
and NAR baselines. Extensive studies further prove the effectiveness of
different modules with interesting findings. Our code will be available at
https://github.com/ffffatgoose/SpotError.
- Abstract(参考訳): レイアウト生成は、要素の有意義な構成を達成するためにグラフィックデザインにおいて重要なステップである。
以前のほとんどの作品は、要素属性トークン(すなわち、カテゴリ、サイズ、位置)を結合することで、シーケンス生成問題と見なす。
これまでのところ、autoregressive approach(ar)は有望な結果を得ているが、グローバルコンテキストモデリングには制限があり、以前に生成されたトークンにしか対応できないため、エラー伝搬に苦しめられている。
最近の非自己回帰的試み(NAR)は、より広い文脈範囲と反復的復号化による洗練の柔軟性を提供する競争結果を示している。
しかし、現在の作品は、不正確である洗練のための誤ったトークンを認識するために単純なヒューリスティックのみを使用する。
本稿ではまず,ARとNARフレームワークの違いをよりよく理解するために,詳細な分析を行う。
さらに,画像配置の空間的パターン(重なり,アライメントなど)のキャプチャに画素空間がより敏感であることから,生成したレイアウトシーケンスから描画されたワイヤフレームイメージを入力として、誤トークンを検出する学習ベースのロケータを提案する。
対象空間における要素列の相補的モダリティとして機能し,全体的な性能に大きく寄与することを示す。
2つの公開データセットの実験は、我々のアプローチがARとNARのベースラインよりも優れていることを示している。
広範な研究により、興味深い発見とともに異なるモジュールの有効性が証明された。
私たちのコードはhttps://github.com/ffffatgoose/spoterrorで利用できます。
関連論文リスト
- LASE: Learned Adjacency Spectral Embeddings [7.612218105739107]
グラフ入力から結節隣接スペクトル埋め込み(ASE)を学習する。
LASEは解釈可能で、パラメータ効率が高く、未観測のエッジを持つ入力に対して堅牢である。
LASEレイヤは、Graph Convolutional Network (GCN)と完全に接続されたGraph Attention Network (GAT)モジュールを組み合わせる。
論文 参考訳(メタデータ) (2024-12-23T17:35:19Z) - Recurrent Distance Filtering for Graph Representation Learning [34.761926988427284]
反復的なワンホップメッセージパッシングに基づくグラフニューラルネットワークは、遠方のノードからの情報を効果的に活用するのに苦労していることが示されている。
これらの課題を解決するための新しいアーキテクチャを提案する。
我々のモデルは、ターゲットへの最短距離で他のノードを集約し、線形RNNを用いてホップ表現のシーケンスを符号化する。
論文 参考訳(メタデータ) (2023-12-03T23:36:16Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Efficient Link Prediction via GNN Layers Induced by Negative Sampling [86.87385758192566]
リンク予測のためのグラフニューラルネットワーク(GNN)は、緩やかに2つの広いカテゴリに分けられる。
本稿では,新しいGNNアーキテクチャを提案する。このアーキテクチャでは,Emphforwardパスは,Emphboth陽性(典型的)と負陰性(アプローチに共通)のエッジに明示的に依存する。
これは、埋め込み自体を、正と負のサンプルの分離を好むフォワードパス特異的エネルギー関数の最小化子として再キャストすることで達成される。
論文 参考訳(メタデータ) (2023-10-14T07:02:54Z) - Rethinking the Paradigm of Content Constraints in Unpaired
Image-to-Image Translation [9.900050049833986]
本稿では,パッチレベルの特徴の潜在空間における表現的類似性を制約することにより,コンテンツ管理のシンプルかつ効率的な方法であるEnCoを提案する。
類似性関数に対しては、I2Iタスクで広く使われている対照的な損失ではなく、単純なMSE損失を用いる。
さらに, 識別者によるサンプリングにおける役割を再考し, ランダムサンプリングの代替として, DAG(Disdisnative attention-guided)パッチサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-11-20T04:39:57Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。