論文の概要: VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents
- arxiv url: http://arxiv.org/abs/2603.15118v1
- Date: Mon, 16 Mar 2026 11:15:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.089222
- Title: VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents
- Title(参考訳): VAREX: 文書からのマルチモーダル構造化抽出のためのベンチマーク
- Authors: Udi Barzelay, Ophir Azulai, Inbar Shapira, Idan Friedman, Foad Abo Dahood, Madison Lee, Abraham Daniels,
- Abstract要約: VAREXは政府形態からの構造化データ抽出を評価するためのベンチマークである。
ベンチマークは、1,777の文書と1,771のユニークな文書から成っており、3相品質保証を通じて真理を検証している。
結果は、4Bパラメータ以下では、コンプライアンス出力 -- 抽出能力ではなく -- が主要なボトルネックであることを示している。
- 参考スコア(独自算出の注目度): 1.06378109904813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce VAREX (VARied-schema EXtraction), a benchmark for evaluating multimodal foundation models on structured data extraction from government forms. VAREX employs a Reverse Annotation pipeline that programmatically fills PDF templates with synthetic values, producing deterministic ground truth validated through three-phase quality assurance. The benchmark comprises 1,777 documents with 1,771 unique schemas across three structural categories, each provided in four input modalities: plain text, layout-preserving text (whitespace-aligned to approximate column positions), document image, or both text and image combined. Unlike existing benchmarks that evaluate from a single input representation, VAREX provides four controlled modalities per document, enabling systematic ablation of how input format affects extraction accuracy -- a capability absent from prior benchmarks. We evaluate 20 models from frontier proprietary models to small open models, with particular attention to models <=4B parameters suitable for cost-sensitive and latency-constrained deployment. Results reveal that (1) below 4B parameters, structured output compliance -- not extraction capability -- is a dominant bottleneck; in particular, schema echo (models producing schema-conforming structure instead of extracted values) depresses scores by 45-65 pp (percentage points) in affected models; (2) extraction-specific fine-tuning at 2B yields +81 pp gains, demonstrating that the instruction-following deficit is addressable without scale; (3) layout-preserving text provides the largest accuracy gain (+3-18 pp), exceeding pixel-level visual cues; and (4) the benchmark most effectively discriminates models in the 60-95% accuracy band. Dataset and evaluation code are publicly available.
- Abstract(参考訳): VAREX(VARied-schema Extraction)は、政府形態からの構造化データ抽出に関するマルチモーダル基礎モデルを評価するためのベンチマークである。
VAREXは、PDFテンプレートを合成値でプログラム的に埋めるリバースアノテーションパイプラインを採用し、三相品質保証を通じて決定論的基底真理を生成する。
ベンチマークは1,777のドキュメントと3つの構造カテゴリにまたがる1,771のユニークなスキーマで構成され、それぞれがプレーンテキスト、レイアウト保存テキスト(ホワイトスペースと近似列の位置)、ドキュメントイメージ、あるいはテキストと画像の組み合わせの4つの入力モードで提供される。
単一の入力表現から評価される既存のベンチマークとは異なり、VAREXはドキュメント毎に4つの制御されたモダリティを提供しており、入力フォーマットが抽出精度にどう影響するかの体系的なアブレーションを可能にする。
我々は、フロンティアプロプライエタリモデルから小さなオープンモデルまで20のモデルを評価し、特にコスト感受性と遅延制約のあるデプロイメントに適したモデル<=4Bパラメーターに注目した。
その結果、(1)4Bパラメータ以下では、構造的出力コンプライアンス -- 抽出能力ではなく -- が支配的ボトルネックであり、特に、抽出された値の代わりにスキーマコンフォーミング構造を生成するモデル)は、影響を受けるモデルで45-65 pp(パーセント)のスコアを低下させ、(2)抽出特異的微調整は2Bの利得+81 ppの利得を達成し、命令追従欠陥がスケールなしで対応可能であること、(3)レイアウト保存テキストは、ピクセルレベルの視覚的手がかりを上回る最大の精度向上(+3-18 pp)を提供すること、(4) ベンチマークは60-95%の精度バンドで最も効果的にモデルを識別することを示した。
データセットと評価コードは公開されています。
関連論文リスト
- Qianfan-OCR: A Unified End-to-End Model for Document Intelligence [41.67343426633923]
Qianfan-OCRは、文書解析、レイアウト分析、文書理解を単一のアーキテクチャで統一する、エンドツーエンドのビジョン言語モデルである。
直接イメージ・ツー・マークダウン変換を実行し、テーブル抽出、チャート理解、文書QA、キー情報抽出など、さまざまなプロンプト駆動タスクをサポートする。
OmniDocBench v1.5 (93.12) と OlmOCR Bench (79.8) のエンド・ツー・エンドモデルの中では、OCRBench、CCOCR、DocVQA、ChartQAの競争成績を達成し、公開鍵情報抽出ベンチマークで最高スコアを獲得した。
論文 参考訳(メタデータ) (2026-03-11T16:08:22Z) - ExtractBench: A Benchmark and Evaluation Methodology for Complex Structured Extraction [11.272127170490059]
エンタープライズ規模のスキーマ幅でPDF-to-JSON抽出を評価するエンドツーエンドベンチマークはない。
ネスト抽出のセマンティクスを捉える原則的手法は存在しない。
ExtractBenchはPDFからJSONへの構造化抽出のためのオープンソースのベンチマークと評価フレームワークである。
論文 参考訳(メタデータ) (2026-02-12T18:31:37Z) - Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM [35.10225876152952]
本稿では,軽量言語モデルを利用した効率的なHTML主コンテンツ抽出フレームワークであるDriipperを紹介する。
本稿では,ロジットプロセッサによる出力空間を厳格に制約する制御復号機構を提案する。
Dripperは、すべての評価ベンチマークで最先端のパフォーマンスを達成し、すべてのベースラインメソッドを上回っます。
論文 参考訳(メタデータ) (2025-11-28T12:04:46Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - Improving Embedding Accuracy for Document Retrieval Using Entity Relationship Maps and Model-Aware Contrastive Sampling [0.0]
APEX-Embedding-7Bは、7ビリオンパラメータデコーダのみのテキスト特徴抽出モデルである。
このアプローチでは2つのトレーニング手法を採用して,現実の焦点を即時的に改善する。
本モデルでは,より長いコンテキスト文書検索タスクに対して,テキスト特徴抽出における最先端の標準を新たに確立する。
論文 参考訳(メタデータ) (2024-10-08T17:36:48Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [51.87391234815163]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。