論文の概要: OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation
- arxiv url: http://arxiv.org/abs/2510.26213v1
- Date: Thu, 30 Oct 2025 07:39:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.701432
- Title: OmniLayout: Enabling Coarse-to-Fine Learning with LLMs for Universal Document Layout Generation
- Title(参考訳): OmniLayout: 汎用ドキュメントレイアウト生成のためのLLMによる粗大な学習の実現
- Authors: Hengrui Kang, Zhuangcheng Gu, Zhiyuan Zhao, Zichen Wen, Bin Wang, Weijia Li, Conghui He,
- Abstract要約: Omni-1Mは、文書レイアウトの最初の100万スケールデータセットである。
2段階学習パラダイムを設計した0.5BモデルであるOmni-LLMを紹介する。
私たちのコード、モデル、データセットは公開されます。
- 参考スコア(独自算出の注目度): 39.32585094395868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document AI has advanced rapidly and is attracting increasing attention. Yet, while most efforts have focused on document layout analysis (DLA), its generative counterpart, document layout generation, remains underexplored. A major obstacle lies in the scarcity of diverse layouts: academic papers with Manhattan-style structures dominate existing studies, while open-world genres such as newspapers and magazines remain severely underrepresented. To address this gap, we curate OmniLayout-1M, the first million-scale dataset of diverse document layouts, covering six common document types and comprising contemporary layouts collected from multiple sources. Moreover, since existing methods struggle in complex domains and often fail to arrange long sequences coherently, we introduce OmniLayout-LLM, a 0.5B model with designed two-stage Coarse-to-Fine learning paradigm: 1) learning universal layout principles from OmniLayout-1M with coarse category definitions, and 2) transferring the knowledge to a specific domain with fine-grained annotations. Extensive experiments demonstrate that our approach achieves strong performance on multiple domains in M$^{6}$Doc dataset, substantially surpassing both existing layout generation experts and several latest general-purpose LLMs. Our code, models, and dataset will be publicly released.
- Abstract(参考訳): ドキュメントAIは急速に進歩し、注目を集めている。
しかし、ほとんどの取り組みはドキュメントレイアウト解析(DLA)に焦点を当てているが、その生成するドキュメントレイアウト生成は未定である。
マンハッタン様式の構造を持つ学術論文が既存の研究を支配しているのに対し、新聞や雑誌のようなオープンワールドのジャンルは、非常に貧弱なままである。
このギャップに対処するため、我々はOmniLayout-1Mをキュレートする。OmniLayout-1Mは6つの共通ドキュメントタイプをカバーし、複数のソースから収集された同時代のレイアウトを含む、多種多様なドキュメントレイアウトの最初の100万規模のデータセットである。
さらに、既存のメソッドは複雑なドメインで苦労し、長いシーケンスを一貫性を持って配列できないことが多いので、OmniLayout-LLMという2段階の粗い学習パラダイムを設計した0.5Bモデルを紹介します。
1)OmniLayout-1Mから粗いカテゴリ定義を学習し、
2) 詳細なアノテーションで知識を特定のドメインに転送する。
大規模な実験により,M$^{6}$Docデータセットでは,既存のレイアウト生成の専門家と最新の汎用LCMの両方をはるかに上回り,複数の領域で高い性能を達成できた。
私たちのコード、モデル、データセットは公開されます。
関連論文リスト
- Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - DocMMIR: A Framework for Document Multi-modal Information Retrieval [35.41540195822167]
本稿では,新しいマルチモーダル文書検索フレームワークDocMMIRを紹介する。
450Kサンプルからなる大規模クロスドメインマルチモーダルベンチマークを構築した。
その結果、ゼロショットベースラインに比べてMRR@10は+31%改善した。
論文 参考訳(メタデータ) (2025-05-25T20:58:58Z) - Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。
提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2025-04-14T19:19:26Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - DocLLM: A layout-aware generative language model for multimodal document
understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。
本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。
我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文 参考訳(メタデータ) (2023-12-31T22:37:52Z) - Are Layout-Infused Language Models Robust to Layout Distribution Shifts?
A Case Study with Scientific Documents [54.744701806413204]
近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。
レイアウトを注入したLMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。
論文 参考訳(メタデータ) (2023-06-01T18:01:33Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。