論文の概要: DocSynth: A Layout Guided Approach for Controllable Document Image
Synthesis
- arxiv url: http://arxiv.org/abs/2107.02638v1
- Date: Tue, 6 Jul 2021 14:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 18:28:03.399769
- Title: DocSynth: A Layout Guided Approach for Controllable Document Image
Synthesis
- Title(参考訳): docsynth: 制御可能な文書画像合成のためのレイアウトガイド手法
- Authors: Sanket Biswas, Pau Riba, Josep Llad\'os and Umapada Pal
- Abstract要約: 本稿では,Doc Synthと呼ばれる新しい手法を用いて,所定のレイアウトに基づいて文書画像を自動的に合成する手法を提案する。
本研究では,ユーザによる参照として空間的レイアウト(オブジェクトカテゴリ付きバウンディングボックス)を考慮し,提案するDoc Synthモデルを用いて,現実的な文書画像の集合を生成する。
その結果,本モデルでは,複数のオブジェクトを用いて,現実的かつ多様な文書画像を生成することが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 16.284895792639137
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite significant progress on current state-of-the-art image generation
models, synthesis of document images containing multiple and complex object
layouts is a challenging task. This paper presents a novel approach, called
DocSynth, to automatically synthesize document images based on a given layout.
In this work, given a spatial layout (bounding boxes with object categories) as
a reference by the user, our proposed DocSynth model learns to generate a set
of realistic document images consistent with the defined layout. Also, this
framework has been adapted to this work as a superior baseline model for
creating synthetic document image datasets for augmenting real data during
training for document layout analysis tasks. Different sets of learning
objectives have been also used to improve the model performance.
Quantitatively, we also compare the generated results of our model with real
data using standard evaluation metrics. The results highlight that our model
can successfully generate realistic and diverse document images with multiple
objects. We also present a comprehensive qualitative analysis summary of the
different scopes of synthetic image generation tasks. Lastly, to our knowledge
this is the first work of its kind.
- Abstract(参考訳): 現在の最先端画像生成モデルでは大きな進歩があったが、複数の複雑なオブジェクトレイアウトを含む文書画像の合成は難しい課題である。
本稿では,与えられたレイアウトに基づいて文書画像を自動的に合成する,docsynthと呼ばれる新しい手法を提案する。
本研究では,ユーザが参照する空間的レイアウト(オブジェクトカテゴリを持つバウンディングボックス)を考慮し,提案するDocSynthモデルを用いて,定義したレイアウトに整合した現実的な文書画像の集合を生成する。
また、このフレームワークは、文書レイアウト分析タスクのトレーニング中に実際のデータを拡張するための合成文書画像データセットを作成するための優れたベースラインモデルとして、この仕事に適応している。
モデルパフォーマンスを改善するために、さまざまな学習目標も使用されています。
また,モデル生成結果と実データとを標準評価指標を用いて定量的に比較した。
その結果,複数のオブジェクトを用いた実写的かつ多彩な文書画像の生成を成功させることができた。
また,合成画像生成タスクの異なるスコープの包括的定性解析概要を示す。
最後に、私たちの知る限りでは、これがこの種の最初の作品です。
関連論文リスト
- DocSynthv2: A Practical Autoregressive Modeling for Document Generation [43.84027661517748]
本稿では, 単純で効果的な自己回帰構造モデルの開発を通じて, Doc Synthv2と呼ばれる新しい手法を提案する。
我々のモデルは、レイアウトとテキストの両方を統合する点で際立ったものであり、既存のレイアウト生成アプローチを超える一歩を踏み出している。
論文 参考訳(メタデータ) (2024-06-12T16:00:16Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - Synthesis in Style: Semantic Segmentation of Historical Documents using
Synthetic Data [12.704529528199062]
文書画像のセマンティックセグメンテーションのためのトレーニングデータの合成法を提案する。
我々はRGBとラベル画像の合成にStyleGANジェネレータの中間機能に見られるクラスタを利用する。
我々のモデルは、個々の画像のマニュアルアノテーションを必要とせずに、スキャンされた文書のデータセットに適用できる。
論文 参考訳(メタデータ) (2021-07-14T15:36:47Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。