論文の概要: Synthesis in Style: Semantic Segmentation of Historical Documents using
Synthetic Data
- arxiv url: http://arxiv.org/abs/2107.06777v1
- Date: Wed, 14 Jul 2021 15:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 14:27:05.798671
- Title: Synthesis in Style: Semantic Segmentation of Historical Documents using
Synthetic Data
- Title(参考訳): スタイルの合成: 合成データを用いた歴史的文書のセマンティックセグメンテーション
- Authors: Christian Bartz, Hendrik R\"atz, Haojin Yang, Joseph Bethge, Christoph
Meinel
- Abstract要約: 文書画像のセマンティックセグメンテーションのためのトレーニングデータの合成法を提案する。
我々はRGBとラベル画像の合成にStyleGANジェネレータの中間機能に見られるクラスタを利用する。
我々のモデルは、個々の画像のマニュアルアノテーションを必要とせずに、スキャンされた文書のデータセットに適用できる。
- 参考スコア(独自算出の注目度): 12.704529528199062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the most pressing problems in the automated analysis of historical
documents is the availability of annotated training data. In this paper, we
propose a novel method for the synthesis of training data for semantic
segmentation of document images. We utilize clusters found in intermediate
features of a StyleGAN generator for the synthesis of RGB and label images at
the same time. Our model can be applied to any dataset of scanned documents
without the need for manual annotation of individual images, as each model is
custom-fit to the dataset. In our experiments, we show that models trained on
our synthetic data can reach competitive performance on open benchmark datasets
for line segmentation.
- Abstract(参考訳): 歴史的文書の自動分析における最も差し迫った問題の1つは、注釈付きトレーニングデータの可用性である。
本稿では,文書画像のセマンティックセグメンテーションのためのトレーニングデータの合成手法を提案する。
我々はRGBとラベル画像の合成にStyleGANジェネレータの中間的特徴のクラスタを同時に利用した。
我々のモデルは、個々の画像のマニュアルアノテーションを必要とせずに、スキャンされたドキュメントのデータセットに適用することができる。
実験では,合成データに基づいてトレーニングされたモデルが,行分割のためのオープンベンチマークデータセット上での競合性能に達することを示す。
関連論文リスト
- SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding [23.910783272007407]
本稿では、ビジュアル文書理解(VDU)を強化するために設計された新しい合成文書生成パイプラインであるSynthDocを紹介する。
データ取得の課題と既存のデータセットの制限に対処するため、SynthDocは、一般公開されたコーパスと高度なレンダリングツールを活用して、包括的な汎用データセットを作成する。
ドナウモデルを用いて実験を行った結果,SynthDocのデータを用いて学習したモデルは,事前学習された読み出しタスクにおいて優れた性能を示し,言語的矛盾にもかかわらず,下流タスクにおいて堅牢性を維持することができた。
論文 参考訳(メタデータ) (2024-08-27T03:31:24Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training? [57.42016037768947]
完全合成テキストイメージペアに基づいてトレーニングされたCLIPモデルであるSynthCLIPを提案する。
我々は人間の介入なしに画像と対応するキャプションの合成データセットを大規模に生成する。
論文 参考訳(メタデータ) (2024-02-02T18:59:58Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Delving into High-Quality Synthetic Face Occlusion Segmentation Datasets [83.749895930242]
そこで本研究では,高品質な自然主義的合成隠蔽顔を製造するための2つの手法を提案する。
両手法の有効性とロバスト性を実証的に示す。
我々は,RealOccとRealOcc-Wildという,微細なアノテーションを付加した高精細な実世界の顔データセットを2つ提示する。
論文 参考訳(メタデータ) (2022-05-12T17:03:57Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - DocSynth: A Layout Guided Approach for Controllable Document Image
Synthesis [16.284895792639137]
本稿では,Doc Synthと呼ばれる新しい手法を用いて,所定のレイアウトに基づいて文書画像を自動的に合成する手法を提案する。
本研究では,ユーザによる参照として空間的レイアウト(オブジェクトカテゴリ付きバウンディングボックス)を考慮し,提案するDoc Synthモデルを用いて,現実的な文書画像の集合を生成する。
その結果,本モデルでは,複数のオブジェクトを用いて,現実的かつ多様な文書画像を生成することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-07-06T14:24:30Z) - On the use of automatically generated synthetic image datasets for
benchmarking face recognition [2.0196229393131726]
GAN(Generative Adversarial Networks)の最近の進歩は、実際のデータセットを合成データセットで置き換える経路を提供する。
現実的な顔画像を合成するためのGAN(Generative Adversarial Networks)の最近の進歩は、実際のデータセットを合成データセットで置き換える経路を提供する。
合成データセットのベンチマーク結果は、良い置換であり、多くの場合、実際のデータセットのベンチマークと同様のエラー率とシステムランキングを提供する。
論文 参考訳(メタデータ) (2021-06-08T09:54:02Z) - Generating Synthetic Handwritten Historical Documents With OCR
Constrained GANs [2.3808546906079178]
我々は,無記名歴史画像のコレクションのみを用いて,正確な根拠真理を持つ合成歴史文書を生成する枠組みを提案する。
我々は,大規模ラベル付き歴史文書データセットを精度良く生成することのできる高品質な合成法を実証する。
論文 参考訳(メタデータ) (2021-03-15T09:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。