論文の概要: DocRefine: An Intelligent Framework for Scientific Document Understanding and Content Optimization based on Multimodal Large Model Agents
- arxiv url: http://arxiv.org/abs/2508.07021v1
- Date: Sat, 09 Aug 2025 15:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.658717
- Title: DocRefine: An Intelligent Framework for Scientific Document Understanding and Content Optimization based on Multimodal Large Model Agents
- Title(参考訳): DocRefine: マルチモーダル大規模モデルエージェントに基づく科学的文書理解とコンテンツ最適化のためのインテリジェントフレームワーク
- Authors: Kun Qian, Wenjie Li, Tianyu Sun, Wenhong Wang, Wenhan Luo,
- Abstract要約: DocRefineは、インテリジェントな理解、コンテンツの改良、科学的なPDF文書の自動要約のために設計された革新的なフレームワークである。
6つの専門的かつ協調的なエージェントからなる洗練されたマルチエージェントシステムを編成する。
さまざまなタスクにおいて、最先端のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 25.190790899297788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponential growth of scientific literature in PDF format necessitates advanced tools for efficient and accurate document understanding, summarization, and content optimization. Traditional methods fall short in handling complex layouts and multimodal content, while direct application of Large Language Models (LLMs) and Vision-Language Large Models (LVLMs) lacks precision and control for intricate editing tasks. This paper introduces DocRefine, an innovative framework designed for intelligent understanding, content refinement, and automated summarization of scientific PDF documents, driven by natural language instructions. DocRefine leverages the power of advanced LVLMs (e.g., GPT-4o) by orchestrating a sophisticated multi-agent system comprising six specialized and collaborative agents: Layout & Structure Analysis, Multimodal Content Understanding, Instruction Decomposition, Content Refinement, Summarization & Generation, and Fidelity & Consistency Verification. This closed-loop feedback architecture ensures high semantic accuracy and visual fidelity. Evaluated on the comprehensive DocEditBench dataset, DocRefine consistently outperforms state-of-the-art baselines across various tasks, achieving overall scores of 86.7% for Semantic Consistency Score (SCS), 93.9% for Layout Fidelity Index (LFI), and 85.0% for Instruction Adherence Rate (IAR). These results demonstrate DocRefine's superior capability in handling complex multimodal document editing, preserving semantic integrity, and maintaining visual consistency, marking a significant advancement in automated scientific document processing.
- Abstract(参考訳): PDF形式での科学文献の指数的成長には、効率的かつ正確な文書理解、要約、コンテンツ最適化のための高度なツールが必要である。
従来の手法は複雑なレイアウトやマルチモーダルなコンテンツを扱うのに不足するが、Large Language Models (LLM) とVision-Language Large Models (LVLM) の直接的な応用は複雑な編集作業の精度と制御を欠いている。
本稿では, 知識理解, コンテンツ洗練, 科学PDF文書の自動要約を目的とした, 自然言語命令による革新的フレームワークDocRefineを紹介する。
DocRefineは、高度なLVLM(例:GPT-4o)のパワーを活用し、レイアウトと構造分析、マルチモーダルコンテンツ理解、インストラクション分解、コンテンツリファインメント、要約と生成、フィデリティと一貫性検証の6つの専門的かつ協調的なエージェントからなる洗練されたマルチエージェントシステムを編成する。
このクローズドループフィードバックアーキテクチャは、セマンティックな精度と視覚的忠実性を保証する。
DocEditBenchデータセットを総合的に評価すると、DocRefineはさまざまなタスクにおける最先端のベースラインを一貫して上回り、セマンティック一貫性スコア(SCS)は86.7%、レイアウトフィデリティ指数(LFI)は93.9%、命令順守率(IAR)は85.0%となっている。
これらの結果から,DocRefineは複雑なマルチモーダル文書編集処理,意味的整合性維持,視覚的整合性の維持に優れており,自動科学文書処理の大幅な進歩を示している。
関連論文リスト
- Zero-Shot Document Understanding using Pseudo Table of Contents-Guided Retrieval-Augmented Generation [4.875345207589195]
DocsRayは、トレーニング不要の文書理解システムである。
擬似コンテンツテーブル(TOC)生成と階層型検索拡張生成(RAG)を統合する
論文 参考訳(メタデータ) (2025-07-31T03:14:45Z) - Benchmarking Multimodal Understanding and Complex Reasoning for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding [40.38251904765156]
テキストリッチ文書理解(TDU)では,テキストの内容や複雑なレイアウトを含む文書を包括的に分析する必要がある。
本稿では,TDUに特化して設計されたマルチモーダル言語モデル(MLLM)の効率的なマルチモーダル拡張であるDocLayLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-27T13:13:38Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。