論文の概要: StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs
- arxiv url: http://arxiv.org/abs/2505.20139v1
- Date: Mon, 26 May 2025 15:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.577737
- Title: StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs
- Title(参考訳): StructEval: 構造出力を生成するLLMの能力のベンチマーク
- Authors: Jialin Yang, Dongfu Jiang, Lipeng He, Sherman Siu, Yuxuan Zhang, Disen Liao, Zhuofeng Li, Huaye Zeng, Yiming Jia, Haozhe Wang, Benjamin Schneider, Chi Ruan, Wentao Ma, Zhiheng Lyu, Yifei Wang, Yi Lu, Quy Duc Do, Ziyan Jiang, Ping Nie, Wenhu Chen,
- Abstract要約: StructEvalは構造化フォーマットの生成におけるLarge Language Modelsの機能を評価するためのベンチマークである。
我々のベンチマークは18の形式と44のタイプのタスクを含み、形式順守と構造的正当性のための新しい指標である。
o1-miniのような最先端のモデルでさえ平均スコアは75.58点に過ぎなかった。
- 参考スコア(独自算出の注目度): 39.108050455592036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become integral to software development workflows, their ability to generate structured outputs has become critically important. We introduce StructEval, a comprehensive benchmark for evaluating LLMs' capabilities in producing both non-renderable (JSON, YAML, CSV) and renderable (HTML, React, SVG) structured formats. Unlike prior benchmarks, StructEval systematically evaluates structural fidelity across diverse formats through two paradigms: 1) generation tasks, producing structured output from natural language prompts, and 2) conversion tasks, translating between structured formats. Our benchmark encompasses 18 formats and 44 types of task, with novel metrics for format adherence and structural correctness. Results reveal significant performance gaps, even state-of-the-art models like o1-mini achieve only 75.58 average score, with open-source alternatives lagging approximately 10 points behind. We find generation tasks more challenging than conversion tasks, and producing correct visual content more difficult than generating text-only structures.
- Abstract(参考訳): 大規模言語モデル(LLM)がソフトウェア開発ワークフローに不可欠なものになるにつれ、構造化されたアウトプットを生成する能力が重要になってきています。
我々は,非レンダリング可能な(JSON,YAML,CSV)およびレンダリング可能な(HTML,React,SVG)構造化フォーマットの生成において,LLMの機能を評価するための包括的なベンチマークであるStructEvalを紹介する。
以前のベンチマークとは異なり、StructEvalは2つのパラダイムを通じて、様々なフォーマットにわたる構造的忠実さを体系的に評価する。
1)生成タスク、自然言語プロンプトからの構造化出力の生成、及び
2)変換タスク、構造化フォーマット間の変換。
我々のベンチマークは18の形式と44のタイプのタスクを含み、形式順守と構造的正当性のための新しい指標である。
o1-miniのような最先端のモデルでさえ平均スコアは75.58点に過ぎず、オープンソースの代替製品は約10ポイント遅れている。
生成タスクは変換タスクよりも難しく、テキストのみの構造を生成するよりも正確な視覚コンテンツを生成するのが難しい。
関連論文リスト
- The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats [0.0]
本研究では,非構造化テキストを構造化形式に変換する大規模言語モデルの能力を体系的に評価する。
実験により、数発のプロンプトを持つGPT-4oがブレークスルー性能を達成することが明らかとなった。
これらの発見は、様々な領域にまたがる自動構造化データ生成の新たな可能性を開く。
論文 参考訳(メタデータ) (2025-03-04T14:14:28Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - StrucText-Eval: Evaluating Large Language Model's Reasoning Ability in Structure-Rich Text [29.03935605732864]
我々はStrucText-Evalという,構造化テキストによる大規模言語モデルの理解と推論の精度を評価するベンチマークを紹介した。
オープンソース LLM が標準データセットで74.9% の最大精度を達成する一方で、そのパフォーマンスはより難しいデータセットで45.8% に大幅に低下していることを示す。
対照的に、人間の参加者はStrucText-Eval-Hardで92.6%の精度に達し、複雑な構造情報を扱うLLMの現在の限界を強調している。
論文 参考訳(メタデータ) (2024-06-15T12:48:00Z) - StructLM: Towards Building Generalist Models for Structured Knowledge Grounding [49.10029030628653]
大規模言語モデル(LLM)では、最先端(SoTA)モデルの背後にある構造化データラグを平均35%処理できる。
私たちは、MistralとCodeLlamaモデルファミリに基づいたStructLMと呼ばれる一連のモデルをトレーニングします。
我々のStructLMシリーズは、評価された18のデータセットのうち16のタスク固有モデルを超え、8つのSKGタスクに新しいSoTAパフォーマンスを確立する。
論文 参考訳(メタデータ) (2024-02-26T15:47:01Z) - A Simple but Effective Approach to Improve Structured Language Model
Output for Information Extraction [11.165093163378152]
大規模言語モデル(LLM)は、命令に従って非構造化自然言語を生成する際、印象的な能力を示した。
本稿では,その構造的テキスト生成能力を高めるために,効率的なG&O手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T20:42:02Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。