論文の概要: The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.25359v1
- Date: Tue, 28 Apr 2026 08:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.772061
- Title: The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in Large Language Models
- Title(参考訳): 構造化出力ベンチマーク:大規模言語モデルにおける構造化出力品質の評価のためのマルチソースベンチマーク
- Authors: Abhinav Kumar Singh, Harsha Vardhan Khurdula, Yoeven D Khemlani, Vineet Agarwal,
- Abstract要約: SOB(Structured Output Benchmark)は3つのソースにまたがるマルチソースベンチマークである。
すべてのモデルは、ソースのモダリティに関係なく、コンテキストのテキスト正規化表現を受け取る。
モデルは、ほぼ完璧なスキーマコンプライアンスを実現するが、正確な葉値マッチングによって測定された最高の値精度は、テキスト上では83.0%にしか達しない。
- 参考スコア(独自算出の注目度): 0.23332469289621785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models are increasingly being deployed to extract structured data from unstructured and semi-structured sources: parsing invoices, medical records, and converting PDF documents to database entries. Yet existing benchmarks for structured output generation either focus on schema compliance alone, or evaluate value correctness within a single source domain. We introduce SOB (The Structured Output Benchmark), a multi-source benchmark spanning three source modalities: native text, images, and audio conversations. All models receive a text-normalized representation of their context regardless of source modality; this deliberate design isolates structured-output capability from raw vision or speech-processing quality, ensuring a fair, source-agnostic comparison. Our benchmark comprises 5,000 text evaluation records derived from multi-hop QA drawn from a 25,091-record full corpus, 209 image records from OCR-processed PDFs across seven document types including multi-column layouts, dense tables, scanned historical documents, small-print text, and mathematical typesetting, and 115 audio records from the AMI corpus. Each record pairs a natural-language question with a JSON schema that the model must follow and a ground-truth answer verified against the source context. We evaluate 21 frontier and open-weight models across three source domains and seven metrics. Our results reveal a consistent pattern: models achieve near-perfect schema compliance, yet the best Value Accuracy, measured by exact leaf-value match, reaches only 83.0% on text, 67.2% on images, and 23.7% on audio, where longer context makes extraction substantially harder. We release the dataset, evaluation pipeline, and all related code.
- Abstract(参考訳): 大規模言語モデルは、請求書のパース、医療記録、PDF文書のデータベースエントリへの変換など、構造化されていない、あるいは半構造化されていないソースから構造化されたデータを抽出するために、ますますデプロイされている。
しかし、構造化された出力生成のための既存のベンチマークは、スキーマコンプライアンスのみに焦点を当てるか、または単一のソースドメイン内の値の正確性を評価する。
SOB(The Structured Output Benchmark)は、ネイティブテキスト、画像、音声会話という3つのソースモードにまたがるマルチソースベンチマークである。
この意図的な設計は、構造化された出力能力を生の視覚や音声処理の品質から切り離し、公平でソースに依存しない比較を確実にする。
ベンチマークでは,25,091個の全コーパスから抽出されたマルチホップQAから得られた5000個のテキスト評価記録,OCR処理したPDFからの209個の画像記録,マルチカラムレイアウト,高密度テーブル,スキャンされた歴史文書,小文字テキスト,数式分類を含む7種類の文書タイプ,AMIコーパスからの115個のオーディオ記録を含む。
各レコードは、自然言語の質問と、モデルが従わなければならないJSONスキーマと、ソースコンテキストに対して検証された根本的真実の回答とをペアリングする。
3つのソースドメインと7つのメトリクスにわたる21のフロンティアとオープンウェイトモデルを評価します。
モデルは、ほぼ完全なスキーマコンプライアンスを実現するが、正確な葉値マッチングによって測定される最高の値精度は、テキストで83.0%、画像で67.2%、オーディオで23.7%にしか達しない。
データセット、評価パイプライン、および関連するすべてのコードをリリースします。
関連論文リスト
- VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents [1.06378109904813]
VAREXは政府形態からの構造化データ抽出を評価するためのベンチマークである。
ベンチマークは、1,777の文書と1,771のユニークな文書から成っており、3相品質保証を通じて真理を検証している。
結果は、4Bパラメータ以下では、コンプライアンス出力 -- 抽出能力ではなく -- が主要なボトルネックであることを示している。
論文 参考訳(メタデータ) (2026-03-16T11:15:56Z) - Multimodal OCR: Parse Anything from Documents [72.69545534962234]
dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。
テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。
不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
論文 参考訳(メタデータ) (2026-03-13T14:42:21Z) - UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters [55.34921520578968]
視覚言語モデル(VLM)は、テキストと公式の統一的な認識を実現している。
パラメータが0.1Bしか持たない統一認識モデルUniRec-0.1Bを提案する。
文字、単語、行、段落、文書など、複数のレベルでテキストや公式の認識を行うことができる。
論文 参考訳(メタデータ) (2025-12-24T10:35:21Z) - Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora [1.7590081165362783]
我々は、新しいアラビアマルチモーダルデータセットを作成するためにCommon Crawlデータセットを処理するパイプラインWasmを提示する。
テキスト抽出のみに焦点を当てた既存のアラビア語コーパスとは異なり、我々のアプローチはウェブコンテンツの構造的整合性を保っている。
既存の主要なデータセットに対して、データ処理パイプラインの包括的な比較分析を提供します。
論文 参考訳(メタデータ) (2025-11-10T13:10:31Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Towards Knowledge-Aware Document Systems: Modeling Semantic Coverage Relations via Answerability Detection [40.12543056558646]
本稿では,セマンティックカバレッジ関係(SCR)をモデル化するための新しいフレームワークを提案する。
等価性、包摂性、セマンティックオーバーラップという3つのコア関係タイプを定義します。
質問応答(QA)に基づくアプローチでは,文書間で共有された質問の応答可能性を意味的カバレッジの指標として活用する。
論文 参考訳(メタデータ) (2025-09-10T06:00:01Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。