論文の概要: IDP Accelerator: Agentic Document Intelligence from Extraction to Compliance Validation
- arxiv url: http://arxiv.org/abs/2602.23481v1
- Date: Thu, 26 Feb 2026 20:20:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.121244
- Title: IDP Accelerator: Agentic Document Intelligence from Extraction to Compliance Validation
- Title(参考訳): IDP加速器: 抽出からコンプライアンス検証までのエージェント文書インテリジェンス
- Authors: Md Mofijul Islam, Md Sirajus Salekin, Joe King, Priyashree Roy, Vamsi Thilak Gudi, Spencer Romo, Akhil Nooney, Boyi Xie, Bob Strahan, Diego A. Socolinsky,
- Abstract要約: IDP(Intelligent Document Processing) Acceleratorは、エンドツーエンドのドキュメントインテリジェンスのためのエージェントAIを実現するフレームワークである。
インタラクティブなデモでは、ユーザはドキュメントのパケットをアップロードし、分類結果を視覚化し、抽出したデータを探索することができる。
- 参考スコア(独自算出の注目度): 3.539467892338473
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding and extracting structured insights from unstructured documents remains a foundational challenge in industrial NLP. While Large Language Models (LLMs) enable zero-shot extraction, traditional pipelines often fail to handle multi-document packets, complex reasoning, and strict compliance requirements. We present IDP (Intelligent Document Processing) Accelerator, a framework enabling agentic AI for end-to-end document intelligence with four key components: (1) DocSplit, a novel benchmark dataset and multimodal classifier using BIO tagging to segment complex document packets; (2) configurable Extraction Module leveraging multimodal LLMs to transform unstructured content into structured data; (3) Agentic Analytics Module, compliant with the Model Context Protocol (MCP) providing data access through secure, sandboxed code execution; and (4) Rule Validation Module replacing deterministic engines with LLM-driven logic for complex compliance checks. The interactive demonstration enables users to upload document packets, visualize classification results, and explore extracted data through an intuitive web interface. We demonstrate effectiveness across industries, highlighting a production deployment at a leading healthcare provider achieving 98% classification accuracy, 80% reduced processing latency, and 77% lower operational costs over legacy baselines. IDP Accelerator is open-sourced with a live demonstration available to the community.
- Abstract(参考訳): 非構造化文書から構造化された洞察を理解し、抽出することは、産業用NLPにおける基礎的な課題である。
LLM(Large Language Models)はゼロショット抽出を可能にするが、従来のパイプラインはマルチドキュメントパケット、複雑な推論、厳格なコンプライアンス要件を処理できないことが多い。
IDP (Intelligent Document Processing) Accelerator は,(1) BIOタグを用いた新しいベンチマークデータセットとマルチモーダル分類器であるDocSplit,(2) 構成可能な抽出モジュールを用いて,構造化されていないコンテンツを構造化データに変換する,(3) エージェント分析モジュール,(3) モデルコンテキストプロトコル (MCP) に準拠した,セキュアでサンドボックス化されたコード実行によるデータアクセスを提供する,(4) ルール検証モジュール。
インタラクティブなデモでは、ユーザはドキュメントのパケットをアップロードし、分類結果を視覚化し、直感的なWebインターフェースを通じて抽出されたデータを探索することができる。
業界全体の効率性を実証し、主要な医療プロバイダにおける運用デプロイメントを強調し、98%の分類精度、80%の処理遅延の削減、レガシベースラインよりも運用コストの77%削減を実現しました。
IDP Acceleratorはオープンソースで、コミュニティでライブデモが公開されている。
関連論文リスト
- A Browser-based Open Source Assistant for Multimodal Content Verification [5.0488681454219675]
生成的AIが生み出す偽情報や偽コンテンツは、ジャーナリストやファクトチェッカーにとって大きな課題となっている。
説得技術、主観性、機械生成テキストなどの信頼性信号を検出するためのNLPモデルが多数存在する。
本稿では,このギャップを埋めるために設計されたブラウザベースのツールである VerIFICATION ASSISTANT について述べる。
論文 参考訳(メタデータ) (2026-03-03T10:39:32Z) - Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。
投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。
汎用OmniDocBenchに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2026-02-13T14:22:10Z) - A Lightweight Modular Framework for Constructing Autonomous Agents Driven by Large Language Models: Design, Implementation, and Applications in AgentForge [1.932555230783329]
LLM駆動の自律エージェントの構築を民主化するために設計された軽量でオープンソースのPythonフレームワーク。
AgentForgeは、(1)正式に定義された入出力契約できめ細かいタスク分解を可能にする構成可能なスキル抽象化、(2)クラウドベースのAPIとローカル推論エンジンのシームレスな切り替えをサポートする統一されたバックエンドインターフェース、(3)エージェントロジックと実装の詳細を分離する宣言型YAMLベースの構成システムである。
論文 参考訳(メタデータ) (2026-01-19T20:33:26Z) - Model-Document Protocol for AI Search [11.377241012645994]
原文が大規模言語モデル (LLM) にどのようにブリッジされているかを形式化する汎用フレームワークである Model-Document Protocol (MDP) を導入する。
MDPは、検索をパスフェッチとして扱う代わりに、構造化されていない文書をタスク固有のLCM対応の入力に変換する複数の経路を定義している。
本稿では,エージェントプロセスを通じてプロトコルを実現するMPP-Agentを提案する。
論文 参考訳(メタデータ) (2025-10-29T04:29:17Z) - FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。