論文の概要: CanvasVAE: Learning to Generate Vector Graphic Documents
- arxiv url: http://arxiv.org/abs/2108.01249v1
- Date: Tue, 3 Aug 2021 02:14:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 19:39:58.473104
- Title: CanvasVAE: Learning to Generate Vector Graphic Documents
- Title(参考訳): CanvasVAE: ベクトルグラフ文書の生成を学ぶ
- Authors: Kota Yamaguchi
- Abstract要約: オンラインサービスからデザインテンプレートのデータセットを用いて,ベクトルグラフィック文書の生成モデルを学習する。
実験では, CanvasVAE というモデルがベクトル図形文書生成の強力な基盤となることを示す。
- 参考スコア(独自算出の注目度): 1.8478165393315746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector graphic documents present visual elements in a resolution free,
compact format and are often seen in creative applications. In this work, we
attempt to learn a generative model of vector graphic documents. We define
vector graphic documents by a multi-modal set of attributes associated to a
canvas and a sequence of visual elements such as shapes, images, or texts, and
train variational auto-encoders to learn the representation of the documents.
We collect a new dataset of design templates from an online service that
features complete document structure including occluded elements. In
experiments, we show that our model, named CanvasVAE, constitutes a strong
baseline for generative modeling of vector graphic documents.
- Abstract(参考訳): ベクトルグラフィック文書は解像度のないコンパクトなフォーマットで視覚要素を提示し、クリエイティブなアプリケーションでよく見られる。
本研究では,ベクトルグラフィック文書の生成モデルを学習しようと試みる。
ベクトルグラフィック文書を,キャンバスに関連付けられた属性と形状,画像,テキストなどの視覚要素の列によって定義し,文書の表現を学習するための変分自動エンコーダを訓練する。
私たちは、occluded要素を含む完全なドキュメント構造を備えたオンラインサービスからデザインテンプレートの新しいデータセットを収集します。
実験では、canvasvae というモデルがベクトル図形文書の生成的モデリングにおいて強力なベースラインとなっていることを示す。
関連論文リスト
- Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Unsupervised Compositional Concepts Discovery with Text-to-Image
Generative Models [80.75258849913574]
本稿では、異なる画像の集合を考えると、各画像を表す生成概念を発見できるかという逆問題を考える。
本稿では,画像の集合から生成概念を抽出し,絵画やオブジェクト,キッチンシーンからの照明から異なる美術スタイルを分離し,イメージネット画像から得られる画像クラスを発見するための教師なしアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:02:15Z) - LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer [80.61492265221817]
グラフィックレイアウトデザインは視覚コミュニケーションにおいて重要な役割を担っている。
しかし、手作りのレイアウトデザインは、スキルを要求し、時間がかかり、バッチプロダクションではスケールできない。
ジェネレーティブモデルは、設計自動化をスケーラブルにするために出現するが、デザイナの欲求に沿うデザインを作成することは、未だに容易ではない。
論文 参考訳(メタデータ) (2022-12-19T21:57:35Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Composition-aware Graphic Layout GAN for Visual-textual Presentation
Designs [24.29890251913182]
与えられた画像に対して高品質な視覚テキスト提示設計を行う際のグラフィックレイアウト生成問題について検討する。
入力画像のグローバルおよび空間的視覚的内容に基づいてレイアウトを合成するために,合成対応グラフィックレイアウトGAN (CGL-GAN) と呼ばれる深層生成モデルを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:42:13Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - Contrastive Document Representation Learning with Graph Attention
Networks [18.22722084624321]
本稿では,既訓練トランスフォーマーモデル上にグラフアテンションネットワークを用いて文書の埋め込みを学習することを提案する。
さらに、グラフ文書モデルに基づいて、大量のラベルなしコーパスでモデルを事前学習するための単純なコントラスト学習戦略を設計する。
論文 参考訳(メタデータ) (2021-10-20T21:05:02Z) - SketchEmbedNet: Learning Novel Concepts by Imitating Drawings [125.45799722437478]
モデルを用いて画像のスケッチを作成することによって学習した画像表現の特性について検討する。
この生成型クラスに依存しないモデルでは,新規な例,クラス,さらには新規なデータセットからの画像の情報埋め込みが,数ショットで生成されることが示されている。
論文 参考訳(メタデータ) (2020-08-27T16:43:28Z) - Graphical Object Detection in Document Images [30.48863304419383]
文書画像中のグラフィカルオブジェクトをローカライズする「グラフィカルオブジェクト検出(Graphical Object Detection, GOD)」という、エンドツーエンドのトレーニング可能なディープラーニングベースのフレームワークを提案する。
我々のフレームワークはデータ駆動であり、文書画像内のグラフィカルなオブジェクトを見つけるのにメタデータを一切必要としない。
我々のモデルは最先端技術と比較して有望な結果をもたらす。
論文 参考訳(メタデータ) (2020-08-25T06:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。