論文の概要: DocDjinn: Controllable Synthetic Document Generation with VLMs and Handwriting Diffusion
- arxiv url: http://arxiv.org/abs/2602.21824v1
- Date: Wed, 25 Feb 2026 11:52:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.819525
- Title: DocDjinn: Controllable Synthetic Document Generation with VLMs and Handwriting Diffusion
- Title(参考訳): DocDjinn: VLMと手書き拡散による制御可能な合成文書生成
- Authors: Marcel Lamott, Saifullah Saifullah, Nauman Riaz, Yves-Noel Weweler, Tobias Alt-Veit, Ahmad Sarmad Ali, Muhammad Armaghan Shakir, Adrian Kalwa, Momina Moetesum, Andreas Dengel, Sheraz Ahmed, Faisal Shafait, Ulrich Schwanecke, Adrian Ulges,
- Abstract要約: 視覚言語モデル(VLM)を用いた制御可能な合成文書生成のための新しいフレームワークを提案する。
提案手法は,既存のソースデータセットの分布に従う視覚的かつ意味論的に一貫した合成文書を生成する。
我々のフレームワークは、実世界のデータセット全体のパフォーマンスに対して平均87%の価格で達成されていることを示す。
- 参考スコア(独自算出の注目度): 5.342168661302001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective document intelligence models rely on large amounts of annotated training data. However, procuring sufficient and high-quality data poses significant challenges due to the labor-intensive and costly nature of data acquisition. Additionally, leveraging language models to annotate real documents raises concerns about data privacy. Synthetic document generation has emerged as a promising, privacy-preserving alternative. We propose DocDjinn, a novel framework for controllable synthetic document generation using Vision-Language Models (VLMs) that produces annotated documents from unlabeled seed samples. Our approach generates visually plausible and semantically consistent synthetic documents that follow the distribution of an existing source dataset through clustering-based seed selection with parametrized sampling. By enriching documents with realistic diffusion-based handwriting and contextual visual elements via semantic-visual decoupling, we generate diverse, high-quality annotated synthetic documents. We evaluate across eleven benchmarks spanning key information extraction, question answering, document classification, and document layout analysis. To our knowledge, this is the first work demonstrating that VLMs can generate faithful annotated document datasets at scale from unlabeled seeds that can effectively enrich or approximate real, manually annotated data for diverse document understanding tasks. We show that with only 100 real training samples, our framework achieves on average $87\%$ of the performance of the full real-world dataset. We publicly release our code and 140k+ synthetic document samples.
- Abstract(参考訳): 効果的なドキュメントインテリジェンスモデルは、大量の注釈付きトレーニングデータに依存している。
しかし、十分なデータと高品質なデータを取得することは、データ取得の労働集約的でコストのかかる性質のために大きな課題を生んでいる。
さらに、実際のドキュメントに注釈をつけるために言語モデルを活用することで、データのプライバシに関する懸念が高まる。
合成文書生成は、有望でプライバシー保護の代替手段として登場した。
未ラベルのシードサンプルから注釈付き文書を生成する視覚言語モデル(VLM)を用いた,新規な合成文書生成フレームワークDocDjinnを提案する。
提案手法は,パラメータ化サンプリングを用いたクラスタリングによるシード選択により,既存のソースデータセットの分布に従う視覚的かつ意味的に一貫性のある合成文書を生成する。
文書を現実的な拡散に基づく手書きや文脈的視覚要素を意味的・視覚的疎結合で強化することにより、多種多様な高品質な注釈付き合成文書を生成する。
キー情報抽出,質問応答,文書分類,文書レイアウト解析にまたがる11のベンチマークを評価した。
我々の知る限り、VLMは、様々な文書理解タスクのために、実または手動の注釈付きデータを効果的に強化または近似できるラベルなしの種から、忠実な注釈付き文書データセットを大規模に生成できることを示す最初の研究である。
100の実際のトレーニングサンプルだけで、我々のフレームワークは、完全な実世界のデータセットのパフォーマンスを平均8,7\%で達成している。
コードと140k以上の合成文書サンプルを公開しています。
関連論文リスト
- FlexDoc: Parameterized Sampling for Diverse Multilingual Synthetic Documents for Training Document Understanding Models [4.013756026582041]
エンタープライズスケールでドキュメント理解モデルを開発するには、大きく、多様で、注釈の付いたデータセットが必要である。
スケーラブルな合成データ生成フレームワークであるFlexDocを紹介します。
FlexDocは、実際のデータセットを拡張するために使用する場合、絶対的なF1スコアを最大11%改善することを示す。
論文 参考訳(メタデータ) (2025-10-02T15:42:35Z) - ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - DocIE@XLLM25: In-Context Learning for Information Extraction using Fully Synthetic Demonstrations [8.612181075294327]
本稿では,合成データ生成とテキスト内学習のためのLLMに基づく完全自動パイプラインを提案する。
約59k$エンティティと30k$リレーショナルトリプルを備えた5k$以上のウィキペディア抽象の合成データセットを作成します。
現状の大規模言語モデルにおいても,文書レベルでのコンテキスト内結合エンティティと関係抽出は依然として困難な課題であることがわかった。
論文 参考訳(メタデータ) (2025-07-08T13:55:25Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding [23.910783272007407]
本稿では、ビジュアル文書理解(VDU)を強化するために設計された新しい合成文書生成パイプラインであるSynthDocを紹介する。
データ取得の課題と既存のデータセットの制限に対処するため、SynthDocは、一般公開されたコーパスと高度なレンダリングツールを活用して、包括的な汎用データセットを作成する。
ドナウモデルを用いて実験を行った結果,SynthDocのデータを用いて学習したモデルは,事前学習された読み出しタスクにおいて優れた性能を示し,言語的矛盾にもかかわらず,下流タスクにおいて堅牢性を維持することができた。
論文 参考訳(メタデータ) (2024-08-27T03:31:24Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - Generating Synthetic Handwritten Historical Documents With OCR
Constrained GANs [2.3808546906079178]
我々は,無記名歴史画像のコレクションのみを用いて,正確な根拠真理を持つ合成歴史文書を生成する枠組みを提案する。
我々は,大規模ラベル付き歴史文書データセットを精度良く生成することのできる高品質な合成法を実証する。
論文 参考訳(メタデータ) (2021-03-15T09:39:17Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。