論文の概要: AnyDoc: Enhancing Document Generation via Large-Scale HTML/CSS Data Synthesis and Height-Aware Reinforcement Optimization
- arxiv url: http://arxiv.org/abs/2603.25118v1
- Date: Thu, 26 Mar 2026 07:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.159283
- Title: AnyDoc: Enhancing Document Generation via Large-Scale HTML/CSS Data Synthesis and Height-Aware Reinforcement Optimization
- Title(参考訳): AnyDoc: 大規模HTML/CSSデータ合成とハイアウェア強化最適化によるドキュメント生成の強化
- Authors: Jiawei Lin, Wanrong Zhu, Vlad I Morariu, Christopher Tensmeyer,
- Abstract要約: AnyDocは、さまざまなドキュメントカテゴリで複数の生成タスクを処理できるフレームワークです。
Doc HTMLは、265,206のドキュメントサンプルを含む大規模なデータセットである。
AnyDocは、3つの実用的な文書生成タスクを達成するためにMLLM(Multi-Modal Large Language Model)を微調整する。
- 参考スコア(独自算出の注目度): 18.36872080754721
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Document generation has gained growing attention in the field of AI-driven content creation. In this work, we push its boundaries by introducing AnyDoc, a framework capable of handling multiple generation tasks across a wide spectrum of document categories, all represented in a unified HTML/CSS format. To overcome the limited coverage and scale of existing human-crafted document datasets, AnyDoc first establishes a scalable data synthesis pipeline to automatically generate documents in HTML/CSS form. This pipeline yields DocHTML, a large-scale dataset containing 265,206 document samples, while spanning 111 categories and 32 distinct styles. Additionally, all documents are equipped with comprehensive metadata, including design intentions, HTML/CSS source code, visual assets, and rendered screenshots. Building on the curated dataset, AnyDoc fine-tunes multi-modal large language models (MLLMs) to achieve three practical document generation tasks: intention-to-document, document derendering, and element-to-document. To address the content overflow issue observed during fine-tuning, AnyDoc further incorporates a height-aware reinforcement learning (HARL) post-training procedure. By defining a reward function based on the difference between predicted and target document heights, overflow is penalized and gradually mitigated during HARL, thereby enhancing overall performance. Qualitative and quantitative experiments demonstrate that AnyDoc outperforms both general-purpose MLLMs and task-specific baselines across all three tasks.
- Abstract(参考訳): ドキュメント生成は、AIによるコンテンツ生成の分野で注目を集めている。
この作業では、さまざまなドキュメントカテゴリにわたる複数の生成タスクを処理可能なフレームワークであるAnyDocを導入し、そのバウンダリを統一されたHTML/CSSフォーマットで表現することで、そのバウンダリを推し進めます。
既存の人為的なドキュメントデータセットのカバレッジとスケールの制限を克服するため、AnyDocはまずスケーラブルなデータ合成パイプラインを構築し、HTML/CSS形式でドキュメントを自動的に生成する。
このパイプラインは、265,206のドキュメントサンプルを含む大規模なデータセットであるDocHTMLを出力し、111のカテゴリと32の異なるスタイルにまたがる。
さらに、すべてのドキュメントには、設計意図、HTML/CSSソースコード、ビジュアルアセット、レンダリングスクリーンショットを含む包括的なメタデータが備わっている。
キュレートされたデータセットに基づいて、AnyDocはマルチモーダルな大規模言語モデル(MLLM)を微調整して、インテント・トゥ・ドキュメント、ドキュメントのデレンダリング、要素・トゥ・ドキュメントの3つの実用的なドキュメント生成タスクを実現する。
微調整中に観察されるコンテンツオーバーフロー問題に対処するため、AnyDocはさらに、HARL(high-aware reinforcement learning)ポストトレーニング手順を取り入れている。
予測された文書の高さと目標文書の高さの差に基づいて報酬関数を定義することにより、HARL中にオーバーフローをペナル化して徐々に緩和し、全体的な性能を向上させる。
定性的かつ定量的な実験は、AnyDocが汎用MLLMとタスク固有のベースラインの両方を3つのタスクで上回っていることを示している。
関連論文リスト
- Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations [22.336858733121158]
OmniDocBenchは9つのドキュメントソースにまたがる高品質なアノテーションを特徴とする新しいベンチマークです。
パイプラインベースの手法とエンドツーエンドのビジョン言語モデルの両方を徹底的に評価する。
論文 参考訳(メタデータ) (2024-12-10T16:05:56Z) - BigDocs: An Open Dataset for Training Multimodal Models on Document and Code Tasks [57.589795399265945]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。
BigDocs-Benchも導入しています。
実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文 参考訳(メタデータ) (2024-12-05T21:41:20Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism [12.289101189321181]
Document Visual Question Answering (Document VQA)は、文書理解と自然言語処理のコミュニティから大きな関心を集めている。
最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。
マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-04-29T18:07:47Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of
Document Structures [31.868926876151342]
本稿では,NLPおよびCVフィールドに適した新しいタスクとして,文書構造の階層的再構築を提案する。
私たちは、2500のマルチページドキュメントと200万近いセマンティックユニットからなるHRDocという大規模なデータセットを構築しました。
本稿では,この問題を解決するために,エンコーダデコーダに基づく階層型文書構造解析システム(DSPS)を提案する。
論文 参考訳(メタデータ) (2023-03-24T07:23:56Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。