論文の概要: Generating Synthetic Invoices via Layout-Preserving Content Replacement
- arxiv url: http://arxiv.org/abs/2508.03754v1
- Date: Mon, 04 Aug 2025 06:19:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.368983
- Title: Generating Synthetic Invoices via Layout-Preserving Content Replacement
- Title(参考訳): レイアウト保存コンテンツ置換による合成請求書の生成
- Authors: Bevin V, Ananthakrishnan P V, Ragesh KR, Sanjay M, Vineeth S, Bibin Wilson,
- Abstract要約: 本稿では,高忠実な合成請求書とそれに対応する構造化データを生成するパイプラインを提案する。
私たちのアプローチは、小規模でプライベートなデータセットを増幅するためのスケーラブルで自動化されたソリューションを提供します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of machine learning models for automated invoice processing is critically dependent on large-scale, diverse datasets. However, the acquisition of such datasets is often constrained by privacy regulations and the high cost of manual annotation. To address this, we present a novel pipeline for generating high-fidelity, synthetic invoice documents and their corresponding structured data. Our method first utilizes Optical Character Recognition (OCR) to extract the text content and precise spatial layout from a source invoice. Select data fields are then replaced with contextually realistic, synthetic content generated by a large language model (LLM). Finally, we employ an inpainting technique to erase the original text from the image and render the new, synthetic text in its place, preserving the exact layout and font characteristics. This process yields a pair of outputs: a visually realistic new invoice image and a perfectly aligned structured data file (JSON) reflecting the synthetic content. Our approach provides a scalable and automated solution to amplify small, private datasets, enabling the creation of large, varied corpora for training more robust and accurate document intelligence models.
- Abstract(参考訳): 自動請求処理のための機械学習モデルの性能は、大規模で多様なデータセットに依存している。
しかしながら、このようなデータセットの取得は、プライバシ規則や手動アノテーションの高コストによって制約されることが多い。
そこで本研究では,高忠実な合成請求書とそれに対応する構造化データを生成するパイプラインを提案する。
提案手法は,まずOCRを用いて,発信元請求書からテキストの内容と正確な空間配置を抽出する。
選択データフィールドは、大言語モデル(LLM)によって生成された文脈的に現実的で合成されたコンテンツに置き換えられる。
最後に,画像から原文を消去し,その場所に新しい合成テキストを描画し,正確なレイアウトとフォント特性を保った。
このプロセスは、視覚的にリアルな新しい請求書画像と、合成内容を反映した完全に整列された構造化データファイル(JSON)の2つの出力を生成する。
このアプローチは、小規模でプライベートなデータセットを増幅するためのスケーラブルで自動化されたソリューションを提供し、より堅牢で正確なドキュメントインテリジェンスモデルをトレーニングするための、大規模で多様なコーパスの作成を可能にします。
関連論文リスト
- Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents [34.55648227035844]
簡単なデータセットは、構造化されていないドキュメントから微調整データを合成するためのフレームワークである。
ユーザーはテキスト抽出モデルやチャンキング戦略を設定して、生文書を一貫性のあるテキストチャンクに変換することができる。
次に、ペルソナ駆動のプロンプトアプローチを活用して、多様な質問応答ペアを生成する。
財務質問応答タスクの実験により、合成データセット上の微調整LDMはドメイン固有の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-07-05T11:38:59Z) - RouteNator: A Router-Based Multi-Modal Architecture for Generating Synthetic Training Data for Function Calling LLMs [3.41612427812159]
デジタルコンテンツ作成ツールでは、ユーザは、API呼び出しにマップしなければならない自然言語クエリを通じて、ニーズを表現します。
既存の合成データ生成アプローチでは、実世界のデータ分散を複製することができない。
高品質な合成学習データを生成するルータベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-05-15T16:53:45Z) - Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Enhancing Document AI Data Generation Through Graph-Based Synthetic Layouts [0.8245350546263803]
グラフニューラルネットワーク(GNN)を用いた文書レイアウト生成のための新しい手法を提案する。
ドキュメント要素をグラフのノードとして表現することで、GNNは現実的で多様なドキュメントレイアウトを生成するように訓練される。
実験の結果,既存の拡張手法よりもグラフ拡張文書のレイアウトが優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-27T21:15:02Z) - Hypertext Entity Extraction in Webpage [112.56734676713721]
textbfMoE ベースの textbfEntity textbfExtraction textbfFramework (textitMoEEF) を導入する。
また、textitHEEDにおけるハイパーテキスト機能の有効性と、textitMoEEFにおけるモデルコンポーネントについて分析する。
論文 参考訳(メタデータ) (2024-03-04T03:21:40Z) - Generating Non-Stationary Textures using Self-Rectification [70.91414475376698]
本稿では,実例に基づく非定常テクスチャ合成の課題に対処する。
本稿では,ユーザが標準画像編集ツールを使用して参照テクスチャを初めて修正する,新しい2段階のアプローチを提案する。
提案手法は「自己修正(self-rectification)」と呼ばれ、このターゲットを自動的にコヒーレントでシームレスなテクスチャに洗練する。
論文 参考訳(メタデータ) (2024-01-05T15:07:05Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Key Information Extraction From Documents: Evaluation And Generator [3.878105750489656]
本研究プロジェクトは,文書からの情報抽出のための最先端モデルと比較する。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
境界ボックス回帰デコーダの使用により、長方形に従わないフィールドに対してのみモデル性能が向上する。
論文 参考訳(メタデータ) (2021-06-09T16:12:21Z) - Generating Synthetic Handwritten Historical Documents With OCR
Constrained GANs [2.3808546906079178]
我々は,無記名歴史画像のコレクションのみを用いて,正確な根拠真理を持つ合成歴史文書を生成する枠組みを提案する。
我々は,大規模ラベル付き歴史文書データセットを精度良く生成することのできる高品質な合成法を実証する。
論文 参考訳(メタデータ) (2021-03-15T09:39:17Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。