論文の概要: StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation
- arxiv url: http://arxiv.org/abs/2507.21340v1
- Date: Mon, 28 Jul 2025 21:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-30 17:08:55.350536
- Title: StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation
- Title(参考訳): StructText:多次元評価によるベンチマーク生成のための合成表-テキストアプローチ
- Authors: Satyananda Kashyap, Sola Shirai, Nandana Mihindukulasooriya, Horst Samulowitz,
- Abstract要約: StructTextは、テキストからキー値抽出のための高忠実度ベンチマークを自動的に生成するエンドツーエンドフレームワークである。
提案手法は,49件の文書を対象とした71,539件のサンプルを用いて評価した。
- 参考スコア(独自算出の注目度): 8.251302684712773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extracting structured information from text, such as key-value pairs that could augment tabular data, is quite useful in many enterprise use cases. Although large language models (LLMs) have enabled numerous automated pipelines for converting natural language into structured formats, there is still a lack of benchmarks for evaluating their extraction quality, especially in specific domains or focused documents specific to a given organization. Building such benchmarks by manual annotations is labour-intensive and limits the size and scalability of the benchmarks. In this work, we present StructText, an end-to-end framework for automatically generating high-fidelity benchmarks for key-value extraction from text using existing tabular data. It uses available tabular data as structured ground truth, and follows a two-stage ``plan-then-execute'' pipeline to synthetically generate corresponding natural-language text. To ensure alignment between text and structured source, we introduce a multi-dimensional evaluation strategy that combines (a) LLM-based judgments on factuality, hallucination, and coherence and (b) objective extraction metrics measuring numeric and temporal accuracy. We evaluated the proposed method on 71,539 examples across 49 datasets. Results reveal that while LLMs achieve strong factual accuracy and avoid hallucination, they struggle with narrative coherence in producing extractable text. Notably, models presume numerical and temporal information with high fidelity yet this information becomes embedded in narratives that resist automated extraction. We release a framework, including datasets, evaluation tools, and baseline extraction systems, to support continued research.
- Abstract(参考訳): 表形式のデータを増大させるキーと値のペアのようなテキストから構造化された情報を抽出することは、多くのエンタープライズユースケースで非常に有用である。
大規模言語モデル(LLM)は、自然言語を構造化形式に変換するための多数の自動パイプラインを可能にするが、抽出品質を評価するためのベンチマークは、特に特定のドメインや特定の組織に特化したドキュメントでは、まだ不足している。
手動のアノテーションでこのようなベンチマークを構築するのは手間がかかり、ベンチマークのサイズとスケーラビリティが制限される。
本研究では,既存の表データを用いたテキストからキー値抽出のための高忠実度ベンチマークを自動生成するエンドツーエンドフレームワークであるStructTextを提案する。
利用可能な表形式のデータを構造化された真実として使用し、2段階の‘plan-then-execute'’パイプラインに従って、対応する自然言語テキストを合成的に生成する。
テキストと構造化ソースの整合性を確保するため,我々は多次元評価戦略を導入する。
(a)LLMに基づく事実性・幻覚・一貫性の判断
b) 数値と時間的精度を測定する客観的抽出指標。
提案手法を,49個のデータセットにわたる71,539個のサンプルを用いて評価した。
その結果,LLMは強い事実的精度を達成し,幻覚を避ける一方で,抽出可能なテキストを生成する上で,物語的コヒーレンスに苦慮していることが明らかとなった。
特に、モデルは高い忠実度を持つ数値情報と時間情報を推定するが、この情報は自動抽出に抵抗する物語に埋め込まれる。
我々は、継続的な研究を支援するために、データセット、評価ツール、ベースライン抽出システムを含むフレームワークをリリースする。
関連論文リスト
- Structuring the Unstructured: A Multi-Agent System for Extracting and Querying Financial KPIs and Guidance [54.25184684077833]
構造化されていない財務文書から定量的な洞察を抽出する,効率的でスケーラブルな手法を提案する。
提案システムは,emphExtraction AgentとemphText-to-Agentの2つの特殊エージェントから構成される。
論文 参考訳(メタデータ) (2025-05-25T15:45:46Z) - Empirical Evaluation of Embedding Models in the Context of Text Classification in Document Review in Construction Delay Disputes [6.076874513889027]
テキスト埋め込みはテキストデータの数値表現であり、単語、フレーズ、文書全体を実数のベクトルに変換する。
本稿では,4つの異なるモデルの包括的比較分析を通じて,異なる埋め込みを評価する作業について述べる。
K-Nearest Neighbors (KNN) と Logistic Regression (LR) の両方を用いてバイナリ分類タスクを行い、特にラベル付きデータセット内でテキストスニペットが 'delay' あるいは 'not delay' に関連付けられているかどうかを判断する。
論文 参考訳(メタデータ) (2025-01-16T22:12:11Z) - StrucText-Eval: Evaluating Large Language Model's Reasoning Ability in Structure-Rich Text [29.03935605732864]
我々はStrucText-Evalという,構造化テキストによる大規模言語モデルの理解と推論の精度を評価するベンチマークを紹介した。
オープンソース LLM が標準データセットで74.9% の最大精度を達成する一方で、そのパフォーマンスはより難しいデータセットで45.8% に大幅に低下していることを示す。
対照的に、人間の参加者はStrucText-Eval-Hardで92.6%の精度に達し、複雑な構造情報を扱うLLMの現在の限界を強調している。
論文 参考訳(メタデータ) (2024-06-15T12:48:00Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - ImPaKT: A Dataset for Open-Schema Knowledge Base Construction [10.073210304061966]
ImPaKTは、ショッピングドメイン(商品購入ガイド)におけるC4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットである。
本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。
論文 参考訳(メタデータ) (2022-12-21T05:02:49Z) - Text2Struct: A Machine Learning Pipeline for Mining Structured Data from Text [3.495405394644691]
本稿では、テキストアノテーションスキーム、トレーニングデータ処理、機械学習実装を含むエンドツーエンドの機械学習パイプラインであるText2Structを提案する。
テキスト中の数値に関連付けられたメトリクスと単位の抽出としてマイニング問題を定式化した。
数字と実体の関係の予測のほとんどは、接地的真理アノテーションとよく一致した。
論文 参考訳(メタデータ) (2022-12-18T09:31:36Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Automatic Construction of Evaluation Suites for Natural Language
Generation Datasets [17.13484629172643]
我々は、制御された摂動を生成し、テキストからスカラー、テキストからテキストへ、あるいはデータからテキストへ設定したサブセットを識別するフレームワークを開発する。
80個のチャレンジセットからなる評価スイートを提案し、現在の世代モデルの限界に光を当てることを可能にした分析の種類を実証する。
論文 参考訳(メタデータ) (2021-06-16T18:20:58Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。