論文の概要: DocReward: A Document Reward Model for Structuring and Stylizing
- arxiv url: http://arxiv.org/abs/2510.11391v1
- Date: Mon, 13 Oct 2025 13:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.378539
- Title: DocReward: A Document Reward Model for Structuring and Stylizing
- Title(参考訳): DocReward: 構造化とスティル化のためのドキュメントリワードモデル
- Authors: Junpeng Liu, Yuzhong Zhao, Bowen Cao, Jiayu Ding, Yilin Jia, Tengchao Lv, Yupan Huang, Shaohan Huang, Nan Yang, Li Dong, Lei Cui, Tao Ge, Xun Wang, Huitian Jiao, Sun Mao, FNU Kartik, Si-Qing Chen, Wai Lam, Furu Wei,
- Abstract要約: DocRewardはドキュメントの構造とスタイルに基づいてドキュメントを評価するドキュメント報酬モデルである。
ブラッドリー・テリーの損失を利用して文書を採点し、注釈付きランキングに矛盾する予測を罰する訓練を受けている。
GPT-5の37.7%の勝利率に比べて60.8%の勝利率を達成した。
- 参考スコア(独自算出の注目度): 107.03974018371058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in agentic workflows have enabled the automation of tasks such as professional document generation. However, they primarily focus on textual quality, neglecting visual structure and style, which are crucial for readability and engagement. This gap arises mainly from the absence of suitable reward models to guide agentic workflows toward producing documents with stronger structural and stylistic quality. To address this, we propose DocReward, a document reward model that evaluates documents based on their structure and style. We construct a multi-domain dataset DocPair of 117K paired documents, covering 32 domains and 267 document types, each including a high- and low-professionalism document with identical content but different structure and style. This enables the model to evaluate professionalism comprehensively, and in a textual-quality-agnostic way. DocReward is trained using the Bradley-Terry loss to score documents, penalizing predictions that contradict the annotated ranking. To assess the performance of reward models, we create a test dataset containing document bundles ranked by well-educated human evaluators. Notably, DocReward outperforms GPT-4o and GPT-5 in accuracy by 30.6 and 19.4 percentage points, respectively, demonstrating its superiority over baselines. In an extrinsic evaluation of document generation, DocReward achieves a significantly higher win rate of 60.8%, compared to GPT-5's 37.7% win rate, demonstrating its utility in guiding generation agents toward producing human-preferred documents.
- Abstract(参考訳): エージェントワークフローの最近の進歩は、プロのドキュメント生成のようなタスクの自動化を可能にしている。
しかし、それらは主に、読みやすさとエンゲージメントに不可欠である視覚構造とスタイルを無視して、テキストの品質に重点を置いている。
このギャップは主として、エージェントワークフローをガイドする適切な報酬モデルがないことから生じ、より強い構造的・スタイリスティックな品質の文書を作成する。
そこで本稿では,ドキュメントの構造とスタイルに基づいて文書を評価するドキュメント報酬モデルであるDocRewardを提案する。
我々は、32のドメインと267のドキュメントタイプをカバーし、117Kのペア化されたドキュメントからなるマルチドメインデータセットDocPairを構築した。
これにより、モデルがプロフェッショナル主義を包括的に、そしてテキスト品質に依存しない方法で評価することができる。
DocRewardはBradley-Terryの損失を利用して文書をスコアし、注釈付きランキングに矛盾する予測を罰する訓練を行っている。
報奨モデルの性能を評価するために、よく教育された人間評価者によってランク付けされた文書バンドルを含むテストデータセットを作成する。
DocReward は GPT-4o と GPT-5 をそれぞれ 30.6 と 19.4 の精度で上回り、ベースラインよりも優れていた。
GPT-5の37.7%の勝利率と比較して、DocRewardは文書生成の根本的評価において60.8%の勝利率を達成した。
関連論文リスト
- Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - Advancing Question Answering on Handwritten Documents: A State-of-the-Art Recognition-Based Model for HW-SQuAD [30.559280110711143]
本稿では,HW-SQuADデータセットとBenthamQAデータセットの先行技術を改善する新しい認識ベースアプローチを提案する。
本モデルでは,変換器を用いた文書検索とアンサンブル手法をモデルレベルで導入し,HW-SQuADデータセットとBenthamQAデータセットにおいて,Exact Matchスコアが82.02%,69%に達した。
論文 参考訳(メタデータ) (2024-06-25T10:18:50Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - Knowledge-Centric Templatic Views of Documents [2.654058995940072]
著者はしばしば、スライドデッキ、ニュースレター、レポート、ポスターなど、様々な文書形式でアイデアを共有している。
文書生成装置の品質測定に適応できる新しい統一評価フレームワークを提案する。
人間の評価を行い,提案手法を用いて作成した文書の82%を利用者が好んでいることを示す。
論文 参考訳(メタデータ) (2024-01-13T01:22:15Z) - Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding [88.88844606781987]
マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。
ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。
本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
論文 参考訳(メタデータ) (2022-06-27T09:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。