Fugu-MT 論文翻訳(概要): Spot the Error: Non-autoregressive Graphic Layout Generation with Wireframe Locator

論文の概要: Spot the Error: Non-autoregressive Graphic Layout Generation with Wireframe Locator

arxiv url: http://arxiv.org/abs/2401.16375v1
Date: Mon, 29 Jan 2024 18:13:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 13:40:50.711957
Title: Spot the Error: Non-autoregressive Graphic Layout Generation with Wireframe Locator
Title（参考訳）: Spot the Error: Wireframe Locatorを用いた非自己回帰グラフレイアウト生成
Authors: Jieru Lin, Danqing Huang, Tiejun Zhao, Dechen Zhan, Chin-Yew Lin
Abstract要約: 生成したレイアウトシーケンスから描画されたワイヤフレームイメージを入力として、誤トークンを検出する学習ベースのロケータを提案する。オブジェクト空間における要素列の相補的モダリティとして機能し、全体的な性能に大きく貢献することを示す。
参考スコア（独自算出の注目度）: 37.65937921431886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Layout generation is a critical step in graphic design to achieve meaningful compositions of elements. Most previous works view it as a sequence generation problem by concatenating element attribute tokens (i.e., category, size, position). So far the autoregressive approach (AR) has achieved promising results, but is still limited in global context modeling and suffers from error propagation since it can only attend to the previously generated tokens. Recent non-autoregressive attempts (NAR) have shown competitive results, which provides a wider context range and the flexibility to refine with iterative decoding. However, current works only use simple heuristics to recognize erroneous tokens for refinement which is inaccurate. This paper first conducts an in-depth analysis to better understand the difference between the AR and NAR framework. Furthermore, based on our observation that pixel space is more sensitive in capturing spatial patterns of graphic layouts (e.g., overlap, alignment), we propose a learning-based locator to detect erroneous tokens which takes the wireframe image rendered from the generated layout sequence as input. We show that it serves as a complementary modality to the element sequence in object space and contributes greatly to the overall performance. Experiments on two public datasets show that our approach outperforms both AR and NAR baselines. Extensive studies further prove the effectiveness of different modules with interesting findings. Our code will be available at https://github.com/ffffatgoose/SpotError.
Abstract（参考訳）: レイアウト生成は、要素の有意義な構成を達成するためにグラフィックデザインにおいて重要なステップである。以前のほとんどの作品は、要素属性トークン(すなわち、カテゴリ、サイズ、位置)を結合することで、シーケンス生成問題と見なす。これまでのところ、autoregressive approach(ar)は有望な結果を得ているが、グローバルコンテキストモデリングには制限があり、以前に生成されたトークンにしか対応できないため、エラー伝搬に苦しめられている。最近の非自己回帰的試み(NAR)は、より広い文脈範囲と反復的復号化による洗練の柔軟性を提供する競争結果を示している。しかし、現在の作品は、不正確である洗練のための誤ったトークンを認識するために単純なヒューリスティックのみを使用する。本稿ではまず,ARとNARフレームワークの違いをよりよく理解するために,詳細な分析を行う。さらに,画像配置の空間的パターン(重なり,アライメントなど)のキャプチャに画素空間がより敏感であることから,生成したレイアウトシーケンスから描画されたワイヤフレームイメージを入力として、誤トークンを検出する学習ベースのロケータを提案する。対象空間における要素列の相補的モダリティとして機能し,全体的な性能に大きく寄与することを示す。 2つの公開データセットの実験は、我々のアプローチがARとNARのベースラインよりも優れていることを示している。広範な研究により、興味深い発見とともに異なるモジュールの有効性が証明された。私たちのコードはhttps://github.com/ffffatgoose/spoterrorで利用できます。

関連論文リスト

ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation [64.84095852784714]
Residual Tokenizer (ResTok)は、画像トークンと潜在トークンの両方の階層的残基を構築する1Dビジュアルトークンライザである。視覚的トークン化における階層的残差の復元はAR画像生成を著しく改善し,ImageNet-256ではわずか9ステップで2.34gFIDを達成した。
論文参考訳（メタデータ） (2026-01-07T14:09:18Z)
What matters for Representation Alignment: Global Information or Spatial Structure? [64.67092609921816]
表現アライメント(REPA)は、強い事前訓練された視覚エンコーダから中間拡散特徴への表現を蒸留することにより、生成訓練を導く。本稿では,対象表現のどの側面が生成に重要であるか,そのテクスト・グロバル・リビジョン・セマンティック・情報について検討する。我々はREPAの標準射影層を単純な畳み込み層に置き換え、外部表現のための空間正規化層を導入する。
論文参考訳（メタデータ） (2025-12-11T16:39:53Z)
BIGFix: Bidirectional Image Generation with Token Fixing [21.40682276355247]
サンプルトークンを反復精製することで画像生成を自己補正する手法を提案する。我々は,ランダムトークンを文脈に注入し,ロバスト性を向上し,サンプリング中のトークンの固定を可能にする,新しいトレーニング手法によりこれを実現する。我々は、ImageNet-256とCIFAR-10データセットを用いた画像生成と、UCF-101とNuScenesによるビデオ生成のアプローチを評価し、両モード間で大幅に改善した。
論文参考訳（メタデータ） (2025-10-14T07:34:44Z)
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction [4.900334213807624]
自己回帰モデリングをより困難にすることなく、大規模なコードブックのメリットを享受する方法を示す。本フレームワークは,(1)各トークンの粗いラベルを逐次予測する自己回帰モデル,(2)粗いラベルに条件付けられた全てのトークンの細粒度ラベルを同時に予測する補助モデル,の2段階からなる。
論文参考訳（メタデータ） (2025-03-20T14:41:29Z)
LASE: Learned Adjacency Spectral Embeddings [7.612218105739107]
グラフ入力から結節隣接スペクトル埋め込み(ASE)を学習する。 LASEは解釈可能で、パラメータ効率が高く、未観測のエッジを持つ入力に対して堅牢である。 LASEレイヤは、Graph Convolutional Network (GCN)と完全に接続されたGraph Attention Network (GAT)モジュールを組み合わせる。
論文参考訳（メタデータ） (2024-12-23T17:35:19Z)
Learning from Mistakes: Iterative Prompt Relabeling for Text-to-Image Diffusion Model Training [33.51524424536508]
Iterative Prompt Relabeling (IPR) は、反復的な画像サンプリングを通じて画像をテキストにアライメントし、フィードバックでリテラブルを促す新しいアルゴリズムである。我々はSDv2とSDXLについて徹底的な実験を行い、空間関係の指示に従う能力をテストする。
論文参考訳（メタデータ） (2023-12-23T11:10:43Z)
Recurrent Distance Filtering for Graph Representation Learning [34.761926988427284]
反復的なワンホップメッセージパッシングに基づくグラフニューラルネットワークは、遠方のノードからの情報を効果的に活用するのに苦労していることが示されている。これらの課題を解決するための新しいアーキテクチャを提案する。我々のモデルは、ターゲットへの最短距離で他のノードを集約し、線形RNNを用いてホップ表現のシーケンスを符号化する。
論文参考訳（メタデータ） (2023-12-03T23:36:16Z)
AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文参考訳（メタデータ） (2023-11-02T12:48:43Z)
Efficient Link Prediction via GNN Layers Induced by Negative Sampling [86.87385758192566]
リンク予測のためのグラフニューラルネットワーク(GNN)は、緩やかに2つの広いカテゴリに分けられる。本稿では,新しいGNNアーキテクチャを提案する。このアーキテクチャでは,Emphforwardパスは,Emphboth陽性(典型的)と負陰性(アプローチに共通)のエッジに明示的に依存する。これは、埋め込み自体を、正と負のサンプルの分離を好むフォワードパス特異的エネルギー関数の最小化子として再キャストすることで達成される。
論文参考訳（メタデータ） (2023-10-14T07:02:54Z)
Rethinking Explaining Graph Neural Networks via Non-parametric Subgraph Matching [68.35685422301613]
そこで我々はMatchExplainerと呼ばれる新しい非パラメトリックな部分グラフマッチングフレームワークを提案し、説明的部分グラフを探索する。ターゲットグラフと他のインスタンスを結合し、ノードに対応する距離を最小化することで最も重要な結合部分構造を識別する。合成および実世界のデータセットの実験は、最先端のパラメトリックベースラインをかなりのマージンで上回り、MatchExplainerの有効性を示す。
論文参考訳（メタデータ） (2023-01-07T05:14:45Z)
Rethinking the Paradigm of Content Constraints in Unpaired Image-to-Image Translation [9.900050049833986]
本稿では,パッチレベルの特徴の潜在空間における表現的類似性を制約することにより,コンテンツ管理のシンプルかつ効率的な方法であるEnCoを提案する。類似性関数に対しては、I2Iタスクで広く使われている対照的な損失ではなく、単純なMSE損失を用いる。さらに, 識別者によるサンプリングにおける役割を再考し, ランダムサンプリングの代替として, DAG(Disdisnative attention-guided)パッチサンプリング戦略を提案する。
論文参考訳（メタデータ） (2022-11-20T04:39:57Z)
Progressive Text-to-Image Generation [40.09326229583334]
本稿では,高忠実度テキスト・画像生成のためのプログレッシブモデルを提案する。提案手法は, 既存のコンテキストに基づいて, 粗い画像から細かな画像への新しい画像トークンの作成によって効果を発揮する。結果として得られた粗大な階層構造により、画像生成プロセスは直感的で解釈可能である。
論文参考訳（メタデータ） (2022-10-05T14:27:20Z)
Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。 ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文参考訳（メタデータ） (2022-10-04T07:35:01Z)
NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文参考訳（メタデータ） (2021-06-25T05:17:55Z)
Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文参考訳（メタデータ） (2020-02-07T03:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。