論文の概要: LLMStructBench: Benchmarking Large Language Model Structured Data Extraction
- arxiv url: http://arxiv.org/abs/2602.14743v1
- Date: Mon, 16 Feb 2026 13:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.436505
- Title: LLMStructBench: Benchmarking Large Language Model Structured Data Extraction
- Title(参考訳): LLMStructBench:大規模言語モデル構造化データ抽出のベンチマーク
- Authors: Sönke Tenckhoff, Mario Koddenbrock, Erik Rodner,
- Abstract要約: LLM(Large Language Models)の評価のための新しいベンチマークを提案する。
私たちのオープンデータセットは、さまざまな複雑さの多様な手作業による解析シナリオで構成されています。
モデルサイズなどの標準属性よりも適切なプロンプト戦略を選択することが重要であることを示す。
- 参考スコア(独自算出の注目度): 1.338174941551702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LLMStructBench, a novel benchmark for evaluating Large Language Models (LLMs) on extracting structured data and generating valid JavaScript Object Notation (JSON) outputs from natural-language text. Our open dataset comprises diverse, manually verified parsing scenarios of varying complexity and enables systematic testing across 22 models and five prompting strategies. We further introduce complementary performance metrics that capture both token-level accuracy and document-level validity, facilitating rigorous comparison of model, size, and prompting effects on parsing reliability. In particular, we show that choosing the right prompting strategy is more important than standard attributes such as model size. This especially ensures structural validity for smaller or less reliable models but increase the number of semantic errors. Our benchmark suite is an step towards future research in the area of LLM applied to parsing or Extract, Transform and Load (ETL) applications.
- Abstract(参考訳): LLMStructBenchは、構造化されたデータを抽出し、自然言語テキストから有効なJavaScriptオブジェクト表記(JSON)出力を生成する上で、LLM(Large Language Models)を評価するための新しいベンチマークである。
私たちのオープンデータセットは、さまざまな複雑さの多様な手作業による解析シナリオで構成されており、22のモデルと5つのプロンプト戦略の体系的なテストを可能にします。
さらに,トークンレベルの精度と文書レベルの妥当性を両立させ,モデルの厳密な比較,サイズ,解析の信頼性向上を促進させる相補的なパフォーマンス指標についても紹介する。
特に,モデルサイズなどの標準属性よりも適切なプロンプト戦略を選択することが重要であることを示す。
これは特に、より小さく、信頼性の低いモデルに対する構造的妥当性を保証するが、セマンティックエラーの数を増やす。
我々のベンチマークスイートは、解析・抽出・変換・負荷(ETL)アプリケーションに適用されるLLMの領域における将来の研究への一歩です。
関連論文リスト
- DiffuRank: Effective Document Reranking with Diffusion Language Models [71.16830004674513]
拡散言語モデル(dLLM)に基づいて構築されたフレームワークであるDiffuRankを提案する。
dLLMは、左から右への順序に制約されないより柔軟なデコーディングと生成プロセスをサポートする。
モデルサイズが類似した自己回帰LDMに匹敵する性能を示す。
論文 参考訳(メタデータ) (2026-02-13T02:18:14Z) - StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation [8.251302684712773]
StructTextは、テキストからキー値抽出のための高忠実度ベンチマークを自動的に生成するエンドツーエンドフレームワークである。
提案手法は,49件の文書を対象とした71,539件のサンプルを用いて評価した。
論文 参考訳(メタデータ) (2025-07-28T21:20:44Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists [41.94295877935867]
データサイエンスにおける最も知識集約的な課題の1つに取り組むために設計された,大規模言語モデルのベンチマークを示す。
提案手法のFeatEngは,LLMの幅広い能力を安価かつ効率的に評価できることを実証する。
論文 参考訳(メタデータ) (2024-10-30T17:59:01Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。