論文の概要: Spot the Error: Non-autoregressive Graphic Layout Generation with
Wireframe Locator
- arxiv url: http://arxiv.org/abs/2401.16375v1
- Date: Mon, 29 Jan 2024 18:13:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 13:40:50.711957
- Title: Spot the Error: Non-autoregressive Graphic Layout Generation with
Wireframe Locator
- Title(参考訳): Spot the Error: Wireframe Locatorを用いた非自己回帰グラフレイアウト生成
- Authors: Jieru Lin, Danqing Huang, Tiejun Zhao, Dechen Zhan, Chin-Yew Lin
- Abstract要約: 生成したレイアウトシーケンスから描画されたワイヤフレームイメージを入力として、誤トークンを検出する学習ベースのロケータを提案する。
オブジェクト空間における要素列の相補的モダリティとして機能し、全体的な性能に大きく貢献することを示す。
- 参考スコア(独自算出の注目度): 37.65937921431886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Layout generation is a critical step in graphic design to achieve meaningful
compositions of elements. Most previous works view it as a sequence generation
problem by concatenating element attribute tokens (i.e., category, size,
position). So far the autoregressive approach (AR) has achieved promising
results, but is still limited in global context modeling and suffers from error
propagation since it can only attend to the previously generated tokens. Recent
non-autoregressive attempts (NAR) have shown competitive results, which
provides a wider context range and the flexibility to refine with iterative
decoding. However, current works only use simple heuristics to recognize
erroneous tokens for refinement which is inaccurate. This paper first conducts
an in-depth analysis to better understand the difference between the AR and NAR
framework. Furthermore, based on our observation that pixel space is more
sensitive in capturing spatial patterns of graphic layouts (e.g., overlap,
alignment), we propose a learning-based locator to detect erroneous tokens
which takes the wireframe image rendered from the generated layout sequence as
input. We show that it serves as a complementary modality to the element
sequence in object space and contributes greatly to the overall performance.
Experiments on two public datasets show that our approach outperforms both AR
and NAR baselines. Extensive studies further prove the effectiveness of
different modules with interesting findings. Our code will be available at
https://github.com/ffffatgoose/SpotError.
- Abstract(参考訳): レイアウト生成は、要素の有意義な構成を達成するためにグラフィックデザインにおいて重要なステップである。
以前のほとんどの作品は、要素属性トークン(すなわち、カテゴリ、サイズ、位置)を結合することで、シーケンス生成問題と見なす。
これまでのところ、autoregressive approach(ar)は有望な結果を得ているが、グローバルコンテキストモデリングには制限があり、以前に生成されたトークンにしか対応できないため、エラー伝搬に苦しめられている。
最近の非自己回帰的試み(NAR)は、より広い文脈範囲と反復的復号化による洗練の柔軟性を提供する競争結果を示している。
しかし、現在の作品は、不正確である洗練のための誤ったトークンを認識するために単純なヒューリスティックのみを使用する。
本稿ではまず,ARとNARフレームワークの違いをよりよく理解するために,詳細な分析を行う。
さらに,画像配置の空間的パターン(重なり,アライメントなど)のキャプチャに画素空間がより敏感であることから,生成したレイアウトシーケンスから描画されたワイヤフレームイメージを入力として、誤トークンを検出する学習ベースのロケータを提案する。
対象空間における要素列の相補的モダリティとして機能し,全体的な性能に大きく寄与することを示す。
2つの公開データセットの実験は、我々のアプローチがARとNARのベースラインよりも優れていることを示している。
広範な研究により、興味深い発見とともに異なるモジュールの有効性が証明された。
私たちのコードはhttps://github.com/ffffatgoose/spoterrorで利用できます。
関連論文リスト
- Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。
我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - Recurrent Distance Filtering for Graph Representation Learning [34.761926988427284]
反復的なワンホップメッセージパッシングに基づくグラフニューラルネットワークは、遠方のノードからの情報を効果的に活用するのに苦労していることが示されている。
これらの課題を解決するための新しいアーキテクチャを提案する。
我々のモデルは、ターゲットへの最短距離で他のノードを集約し、線形RNNを用いてホップ表現のシーケンスを符号化する。
論文 参考訳(メタデータ) (2023-12-03T23:36:16Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Rethinking Explaining Graph Neural Networks via Non-parametric Subgraph
Matching [68.35685422301613]
そこで我々はMatchExplainerと呼ばれる新しい非パラメトリックな部分グラフマッチングフレームワークを提案し、説明的部分グラフを探索する。
ターゲットグラフと他のインスタンスを結合し、ノードに対応する距離を最小化することで最も重要な結合部分構造を識別する。
合成および実世界のデータセットの実験は、最先端のパラメトリックベースラインをかなりのマージンで上回り、MatchExplainerの有効性を示す。
論文 参考訳(メタデータ) (2023-01-07T05:14:45Z) - Rethinking the Paradigm of Content Constraints in Unpaired
Image-to-Image Translation [9.900050049833986]
本稿では,パッチレベルの特徴の潜在空間における表現的類似性を制約することにより,コンテンツ管理のシンプルかつ効率的な方法であるEnCoを提案する。
類似性関数に対しては、I2Iタスクで広く使われている対照的な損失ではなく、単純なMSE損失を用いる。
さらに, 識別者によるサンプリングにおける役割を再考し, ランダムサンプリングの代替として, DAG(Disdisnative attention-guided)パッチサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-11-20T04:39:57Z) - Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。
提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。
結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文 参考訳(メタデータ) (2022-10-05T14:27:20Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。