論文の概要: Agentar-Fin-OCR
- arxiv url: http://arxiv.org/abs/2603.11044v1
- Date: Wed, 11 Mar 2026 17:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.098335
- Title: Agentar-Fin-OCR
- Title(参考訳): Agentar-Fin-OCR
- Authors: Siyi Qian, Xiongfei Bai, Bingtao Fu, Yichen Lu, Gaoyang Zhang, Xudong Yang, Peng Zhang,
- Abstract要約: Agentar-Fin-OCR(エージェントフィン-OCR)は、金融ドメイン文書に適した文書解析システムである。
複雑なレイアウトやクロスページ構造の不連続といったファイナンス固有の課題に対処するため、Agensar-Fin-OCRはクロスページコンテンツ統合アルゴリズムを組み合わせた。
実験により、OmniDocBenchのメトリクスを解析するテーブル上で、我々のモデルは高いパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 6.212573253529528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose Agentar-Fin-OCR, a document parsing system tailored to financial-domain documents, transforming ultra-long financial PDFs into semantically consistent, highly accurate, structured outputs with auditing-grade provenance. To address finance-specific challenges such as complex layouts, cross-page structural discontinuities, and cell-level referencing capability, Agentar-Fin-OCR combines (1) a Cross-page Contents Consolidation algorithm to restore continuity across pages and a Document-level Heading Hierarchy Reconstruction (DHR) module to build a globally consistent Table of Contents (TOC) tree for structure-aware retrieval, and (2) a difficulty-adaptive curriculum learning training strategy for table parsing, together with a CellBBoxRegressor module that uses structural anchor tokens to localize table cells from decoder hidden states without external detectors. Experiments demonstrate that our model shows high performance on the table parsing metrics of OmniDocBench. To enable realistic evaluation in the financial vertical, we further introduce FinDocBench, a benchmark that includes six financial document categories with expert-verified annotations and evaluation metrics including Table of Contents edit-distance-based similarity (TocEDS), cross-page concatenated TEDS, and Table Cell Intersection over Union (C-IoU). We evaluate a wide range of state-of-the-art models on FinDocBench to assess their capabilities and remaining limitations on financial documents. Overall, Agentar-Fin-OCR and FinDocBench provide a practical foundation for reliable downstream financial document applications.
- Abstract(参考訳): 本稿では,金融ドメイン文書に適した文書解析システムであるAgensar-Fin-OCRを提案する。
複雑なレイアウト、クロスページ構造の不連続性、セルレベルの参照機能といった金融特有の課題に対処するため、Agensar-Fin-OCRは、(1)ページ間の連続性を回復するためのクロスページコンテンツ統合アルゴリズムと、構造認識検索のためのグローバルに一貫したTable of Contents(TOC)ツリーを構築するためのドキュメントレベルヘッダ階層再構築(DHR)モジュール、(2)テーブル解析のための困難適応型カリキュラム学習戦略、および、CellBBoxRegressorモジュールを組み合わせて、外部検出器なしでテーブルセルをローカライズするための構造的アンカートークンを使用して、デコーダの隠蔽状態からテーブルセルをローカライズする。
実験により、OmniDocBenchのメトリクスを解析するテーブル上で、我々のモデルは高いパフォーマンスを示す。
さらに、FinDocBenchは、専門的なアノテーションと評価指標を備えた6つの財務文書カテゴリを含むベンチマークで、TocEDS(Table of ContentsEdit-Distance-based similarity)、TEDS(B cross-page Concatenated)、C-OoU(Table Cell Intersection over Union)などが紹介されている。
我々はFinDocBenchのさまざまな最先端モデルを評価し、その能力と財務文書上の制約を検証した。
Agentar-Fin-OCRとFinDocBenchは、信頼性の高い下流の財務文書アプリケーションのための実用的な基盤を提供する。
関連論文リスト
- FinCriticalED: A Visual Benchmark for Financial Fact-Level OCR Evaluation [45.16693985619424]
FinCriticalEDは、財務文書のOCRおよびビジョン言語モデルを評価するためのビジュアルベンチマークである。
FinCriticalEDは500のイメージとHTMLのペアを提供し、700以上の数値と時間的事実をカバーする、専門家の注釈付き財務事実を提供する。
論文 参考訳(メタデータ) (2025-11-19T00:41:14Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。
プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。
2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文 参考訳(メタデータ) (2025-10-19T14:05:35Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs [40.216867348210265]
FinAuditingは、財務監査タスクを評価するための最初の分類基準であり、構造を意識したマルチドキュメントのベンチマークである。
本物のアメリカ製である。
FinAuditingは3つの補完的なサブタスク、セマンティック一貫性のためのFinSM、リレーショナル一貫性のためのFinRE、数値一貫性のためのFinMRを定義している。
13の最先端のLCMに関する大規模なゼロショット実験は、現在のモデルが意味論、関係論、数学的次元で矛盾なく機能することを明らかにする。
論文 参考訳(メタデータ) (2025-10-10T00:41:55Z) - FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering [57.18367828883773]
FinAgentBenchは、ファイナンスにおける多段階推論によるエージェント検索を評価するためのベンチマークである。
このベンチマークは、S&P-500上場企業に関する26Kのエキスパートアノテート例から成っている。
我々は,最先端モデルの集合を評価し,対象の微調整がエージェント検索性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-07T22:15:22Z) - Structuring the Unstructured: A Multi-Agent System for Extracting and Querying Financial KPIs and Guidance [54.25184684077833]
構造化されていない財務文書から定量的な洞察を抽出する,効率的でスケーラブルな手法を提案する。
提案システムは,emphExtraction AgentとemphText-to-Agentの2つの特殊エージェントから構成される。
論文 参考訳(メタデータ) (2025-05-25T15:45:46Z) - ViBERTgrid BiLSTM-CRF: Multimodal Key Information Extraction from Unstructured Financial Documents [0.0]
本稿では,BiLSTM-CRF層を組み込んだマルチモーダルトランスフォーマー(ViBERTgrid)を非構造化財務文書に適用する手法を提案する。
提案した ViBERTgrid BiLSTM-CRF モデルでは,ファイナンシャルドメイン内の非構造化文書から名付けられたエンティティ認識の性能(最大2ポイント)が大幅に向上した。
論文 参考訳(メタデータ) (2024-09-23T13:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。