論文の概要: IndicDLP: A Foundational Dataset for Multi-Lingual and Multi-Domain Document Layout Parsing
- arxiv url: http://arxiv.org/abs/2512.20236v1
- Date: Tue, 23 Dec 2025 10:49:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.832952
- Title: IndicDLP: A Foundational Dataset for Multi-Lingual and Multi-Domain Document Layout Parsing
- Title(参考訳): IndicDLP:多言語・多ドメイン文書レイアウト解析のための基礎的データセット
- Authors: Oikantik Nath, Sahithi Kukkala, Mitesh Khapra, Ravi Kiran Sarvadevabhatla,
- Abstract要約: IndicDLPは、11の代表的なIndic言語と12の共通文書ドメインにまたがる大規模な基礎文書レイアウトデータセットである。
IndicDLPにおける英語モデルの微調整が性能を著しく向上させることを示す。
IndicDLPでトレーニングされたモデルは、Indicレイアウトをはるかに越えて一般化され、ドキュメントのデジタル化に有用なリソースとなっている。
- 参考スコア(独自算出の注目度): 8.447520506307567
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document layout analysis is essential for downstream tasks such as information retrieval, extraction, OCR, and digitization. However, existing large-scale datasets like PubLayNet and DocBank lack fine-grained region labels and multilingual diversity, making them insufficient for representing complex document layouts. In contrast, human-annotated datasets such as M6Doc and D4LA offer richer labels and greater domain diversity, but are too small to train robust models and lack adequate multilingual coverage. This gap is especially pronounced for Indic documents, which encompass diverse scripts yet remain underrepresented in current datasets, further limiting progress in this space. To address these shortcomings, we introduce IndicDLP, a large-scale foundational document layout dataset spanning 11 representative Indic languages alongside English and 12 common document domains. Additionally, we curate UED-mini, a dataset derived from DocLayNet and M6Doc, to enhance pretraining and provide a solid foundation for Indic layout models. Our experiments demonstrate that fine-tuning existing English models on IndicDLP significantly boosts performance, validating its effectiveness. Moreover, models trained on IndicDLP generalize well beyond Indic layouts, making it a valuable resource for document digitization. This work bridges gaps in scale, diversity, and annotation granularity, driving inclusive and efficient document understanding.
- Abstract(参考訳): 文書レイアウト解析は、情報検索、抽出、OCR、デジタル化といった下流タスクに不可欠である。
しかし、PubLayNetやDocBankのような既存の大規模データセットには、きめ細かいリージョンラベルと多言語的な多様性が欠けており、複雑なドキュメントレイアウトを表現するには不十分である。
対照的に、M6DocやD4LAのような人間アノテーション付きデータセットは、よりリッチなラベルとドメインの多様性を提供するが、堅牢なモデルをトレーニングするには小さすぎるため、適切な多言語カバレッジが欠如している。
このギャップはIndicドキュメントで特に顕著で、多様なスクリプトを含むが、現在のデータセットでは表現されていないため、この分野の進歩はさらに制限されている。
IndicDLPは、11の代表的なIndic言語と12の共通文書ドメインにまたがる大規模な基礎文書レイアウトデータセットである。
さらに、DocLayNetとM6Docから派生したデータセットであるUED-miniをキュレートして、事前トレーニングを強化し、Indicレイアウトモデルのための強固な基盤を提供する。
IndicDLP上での英語モデルの微調整により性能が著しく向上し,その有効性が検証された。
さらに、IndicDLPでトレーニングされたモデルは、Indicレイアウトをはるかに越え、ドキュメントのデジタル化に有用なリソースとなっている。
この作業は、スケール、多様性、アノテーションの粒度のギャップを埋め、包括的で効率的な文書理解を促進する。
関連論文リスト
- Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。
当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文 参考訳(メタデータ) (2024-04-05T10:26:42Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - A Multi-Modal Multilingual Benchmark for Document Image Classification [21.7518357653137]
新たに作成した2つの多言語データセットWIKI-DOCと MultiEUR-DOCLEXを紹介する。
我々は、文書画像分類における未検証設定において、視覚的に豊富な文書理解や文書AIモデルについて研究する。
実験結果から,多言語間移動における多言語文書AIモデルの限界が示された。
論文 参考訳(メタデータ) (2023-10-25T04:35:06Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis [6.155943751502232]
本稿では,言語に依存しないグラフニューラルネットワーク(GNN)モデルを提案する。
我々のモデルは産業アプリケーション、特に多言語シナリオに適しています。
論文 参考訳(メタデータ) (2023-04-24T03:54:48Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - CDA: a Cost Efficient Content-based Multilingual Web Document Aligner [97.98885151955467]
多言語のWebドキュメントをコンテンツに基づいて整列させる、Content-based Document Alignmentアプローチを紹介します。
我々はtf-idfを用いたベクトル表現構築に語彙翻訳モデルを利用する。
実験によると、cdaは堅牢でコスト効率が高く、(i)大規模でノイズの多いwebデータの処理や(ii)新しくて低リソースな言語へのスケーリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2021-02-20T03:37:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。