論文の概要: Synthetic Data Augmentation for Table Detection: Re-evaluating TableNet's Performance with Automatically Generated Document Images
- arxiv url: http://arxiv.org/abs/2506.14583v1
- Date: Tue, 17 Jun 2025 14:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.528223
- Title: Synthetic Data Augmentation for Table Detection: Re-evaluating TableNet's Performance with Automatically Generated Document Images
- Title(参考訳): テーブル検出のための合成データ拡張:自動生成文書画像によるテーブルネットの性能の再評価
- Authors: Krishna Sahukara, Zineddine Bettouche, Andreas Fischer,
- Abstract要約: スマートフォンやスキャナーによってキャプチャされた文書ページは、しばしばテーブルを含むが、手動による抽出は遅く、エラーを起こしやすい。
本稿では,現実的な2カラムページを視覚的に多様なテーブルレイアウトで合成する自動パイプラインを提案する。
生成されたコーパスは、現実世界のMarmotベンチマークを拡張し、TableNetのシステマティックな解決研究を可能にする。
- 参考スコア(独自算出の注目度): 0.31263095816232184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document pages captured by smartphones or scanners often contain tables, yet manual extraction is slow and error-prone. We introduce an automated LaTeX-based pipeline that synthesizes realistic two-column pages with visually diverse table layouts and aligned ground-truth masks. The generated corpus augments the real-world Marmot benchmark and enables a systematic resolution study of TableNet. Training TableNet on our synthetic data achieves a pixel-wise XOR error of 4.04% on our synthetic test set with a 256x256 input resolution, and 4.33% with 1024x1024. The best performance on the Marmot benchmark is 9.18% (at 256x256), while cutting manual annotation effort through automation.
- Abstract(参考訳): スマートフォンやスキャナーによってキャプチャされた文書ページは、しばしばテーブルを含むが、手動による抽出は遅く、エラーを起こしやすい。
現実的な2カラムのページを視覚的に多彩なテーブルレイアウトと整列した接地トラスマスクで合成するLaTeXベースのパイプラインを自動で導入する。
生成されたコーパスは、現実世界のMarmotベンチマークを拡張し、TableNetのシステマティックな解決研究を可能にする。
合成データ上でのTableNetのトレーニングでは,256x256の入力解像度で合成テストセット上で4.04%,1024x1024で4.33%のXOR誤差が得られる。
マーモットベンチマークで最高のパフォーマンスは9.18%(256x256)であり、自動化によって手動のアノテーションをカットする。
関連論文リスト
- Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [37.052999707460636]
layoutRLは、レイアウトを明示的に認識するようにモデルをトレーニングするエンドツーエンドの強化学習フレームワークである。
堅牢なドキュメント理解の進歩を加速するために、コードとデータセットを公開します。
論文 参考訳(メタデータ) (2025-06-01T15:19:52Z) - Improving Physical Object State Representation in Text-to-Image Generative Systems [10.600387261733053]
我々は、様々な状態のオブジェクトを正確にキャプチャする高品質な合成データを生成する。
この合成データに基づいて、オープンソースのテキスト・画像モデルをいくつか微調整する。
生成した画像とプロンプトとのアライメントを定量化することにより、微調整モデルの性能を評価する。
論文 参考訳(メタデータ) (2025-05-04T20:24:57Z) - Memory Efficient Matting with Adaptive Token Routing [73.09131141304984]
トランスフォーマーベースのモデルは、最近、画像マッチングにおいて優れたパフォーマンスを達成している。
MeMatteは、高解像度画像を処理するためのtextbfMemory-textbfefficient textbfmattingフレームワークである。
論文 参考訳(メタデータ) (2024-12-14T06:21:24Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - DocParseNet: Advanced Semantic Segmentation and OCR Embeddings for Efficient Scanned Document Annotation [1.1650821883155187]
DocParseNetは、ディープラーニングとマルチモーダル学習を組み合わせて、テキストとビジュアルデータの両方を処理する。
従来のモデルよりも大幅に優れており、検証ではmIoUスコアが49.12、テストセットでは49.78である。
論文 参考訳(メタデータ) (2024-06-25T14:32:31Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - FreeMask: Synthetic Images with Dense Annotations Make Stronger
Segmentation Models [62.009002395326384]
FreeMaskは、生成モデルからの合成画像を利用して、データ収集とアノテーション手順の負担を軽減する。
まず、現実的なデータセットによって提供されるセマンティックマスクに条件付けされた豊富な訓練画像を合成する。
本研究では,実画像との協調訓練や,実画像の事前学習による合成画像の役割について検討する。
論文 参考訳(メタデータ) (2023-10-23T17:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。