論文の概要: PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents
- arxiv url: http://arxiv.org/abs/2605.10341v1
- Date: Mon, 11 May 2026 10:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.74001
- Title: PaperFit: Vision-in-the-Loop Typesetting Optimization for Scientific Documents
- Title(参考訳): PaperFit:科学文書の視覚型型付け最適化
- Authors: Bihui Yu, Xinglong Xu, Junjie Jiang, Jiabei Cheng, Caijun Jia, Siyuan Li, Conghui He, Jingxuan Wei, Cheng Tan,
- Abstract要約: ルールベースのツールはビジュアルのレンダリングに盲目であり、ソースコードとログファイルでのみ動作する。
本稿では、ページを反復レンダリングし、欠陥を診断し、制約のある修復を行う、ループ内視覚エージェントPaperFitを提案する。
- 参考スコア(独自算出の注目度): 33.68901657816205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A LaTeX manuscript that compiles without error is not necessarily publication-ready. The resulting PDFs frequently suffer from misplaced floats, overflowing equations, inconsistent table scaling, widow and orphan lines, and poor page balance, forcing authors into repetitive compile-inspect-edit cycles. Rule-based tools are blind to rendered visuals, operating only on source code and log files. Text-only LLMs perform open-loop text editing, unable to predict or verify the two-dimensional layout consequences of their changes. Reliable typesetting optimization therefore requires a visual closed loop with verification after every edit. We formalize this problem as Visual Typesetting Optimization (VTO), the task of transforming a compilable LaTeX paper into a visually polished, page-budget-compliant PDF through iterative visual verification and source-level revision, and introduce a five-category taxonomy of typesetting defects to guide diagnosis. We present PaperFit, a vision-in-the-loop agent that iteratively renders pages, diagnoses defects, and applies constrained repairs. To benchmark VTO, we construct PaperFit-Bench with 200 papers across 10 venue templates and 13 defect types at different difficulty. Extensive experiments show that PaperFit outperforms all baselines by a large margin, establishing that bridging the gap from compilable source to publication-ready PDF requires vision-in-the-loop optimization and that VTO constitutes a critical missing stage in the document automation pipeline.
- Abstract(参考訳): エラーなしにコンパイルされるLaTeXの原稿は、必ずしも出版可能なものではない。
結果として得られたPDFは、誤って配置されたフロート、オーバーフロー方程式、一貫性のない表のスケーリング、未亡人と孤児の行、ページのバランスの悪さに悩まされ、著者は繰り返しコンパイル-検査-編集サイクルを強制する。
ルールベースのツールはビジュアルのレンダリングに盲目であり、ソースコードとログファイルでのみ動作する。
テキストのみのLLMはオープンループのテキスト編集を行うが、それらの変更による2次元のレイアウト結果の予測や検証はできない。
したがって、信頼性の高い型セット最適化には、編集毎に検証された視覚的なクローズドループが必要である。
本稿では,コンパイル可能なLaTeX紙を視覚的に洗練され,ページ予算に準拠したPDFに変換する作業である視覚型設定最適化(VTO)として,この問題を定式化した。
本稿では、ページを反復レンダリングし、欠陥を診断し、制約のある修復を行う、ループ内視覚エージェントPaperFitを提案する。
VTOをベンチマークするために、我々は10の会場テンプレートと13の欠陥タイプにまたがる200の論文でPaperFit-Benchを構築した。
大規模な実験により、PaperFitはすべてのベースラインを大きなマージンで上回り、コンパイル可能なソースからパブリッシュ可能なPDFへのギャップを埋めるには、ループの最適化が必要であり、VTOがドキュメント自動化パイプラインにおいて欠落するステージとなっていることが判明した。
関連論文リスト
- Chain of Evidence: Pixel-Level Visual Attribution for Iterative Retrieval-Augmented Generation [19.889854990300595]
反復検索拡張生成(iRAG)は、複雑なマルチホップ問題に答える強力なパラダイムとして登場した。
Evidence (CoE) の textbfChain について述べる。
論文 参考訳(メタデータ) (2026-05-02T06:40:42Z) - Doc-V*:Coarse-to-Fine Interactive Visual Reasoning for Multi-Page Document VQA [71.42483000929614]
複数ページのドキュメント 視覚的質問回答は、長い、視覚的に密集したドキュメントにおける意味論、レイアウト、および視覚的要素の推論を必要とする。
我々は,多ページDocVQAをシーケンシャルエビデンスアグリゲーションとしてキャストするtextbfOCRフリーエージェントフレームワークであるDoc-$V*$を提案する。
論文 参考訳(メタデータ) (2026-04-15T11:12:27Z) - ROAP: A Reading-Order and Attention-Prior Pipeline for Optimizing Layout Transformers in Key Information Extraction [5.594845708011402]
本稿では,レイアウト変換器のアテンション分布を最適化する軽量かつアーキテクチャに依存しないパイプラインであるROAPを提案する。
FUNSDおよびCORDベンチマークの実験により、ROAPはバックボーンの性能を一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-01-09T02:02:37Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [46.14775667559124]
スキャンされた画像から文書を解析することは、テキストの段落、図形、公式、表などの複雑な要素が絡み合っているため、依然として重要な課題である。
既存の教師付き微調整手法は、様々なドキュメントタイプにまたがる一般化に苦慮し、特にアウト・オブ・ディストリビューションデータにおいて、パフォーマンスが低下する。
本稿では、正規化編集距離カウント精度と読み出し順序保存を統合した複合報酬によるレイアウト理解を最適化する強化学習フレームワークであるLayoutRLを紹介する。
Infinity-Benchは、幅広いドキュメントタイプ、言語、構造的複雑さに対して、常に最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-10-17T06:26:59Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。