Fugu-MT 論文翻訳(概要): StructBench: An Autogenerated Benchmark for Evaluating Large Language Model's Ability in Structure-Rich Text Understanding

論文の概要: StructBench: An Autogenerated Benchmark for Evaluating Large Language Model's Ability in Structure-Rich Text Understanding

arxiv url: http://arxiv.org/abs/2406.10621v1
Date: Sat, 15 Jun 2024 12:48:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 23:33:44.148724
Title: StructBench: An Autogenerated Benchmark for Evaluating Large Language Model's Ability in Structure-Rich Text Understanding
Title（参考訳）: StructBench: 構造化リッチテキスト理解における大規模言語モデルの能力評価のための自動生成ベンチマーク
Authors: Zhouhong Gu, Haoning Ye, Zeyang Zhou, Hongwei Feng, Yanghua Xiao,
Abstract要約: StructBenchは、8つの異なる構造化言語に6,032の質問と29の特定のタスクからなるベンチマークである。また、LLMと人的パフォーマンスのギャップをより深く調べるために、3,016の質問を含むStructBench-Hardについても紹介する。結果は、現在最高の性能のLCMはStructBench-Hardで65.0%の精度を達成し、人間の精度は95.7%に達することを示唆している。
参考スコア（独自算出の注目度）: 30.770561119295728
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Given the substantial volumes of structured data held by many companies, enabling Large Language Models (LLMs) to directly understand structured text in non-structured forms could significantly enhance their capabilities across various business scenarios. To this end, we propose evaluation data generation method for assessing LLM's ability in understanding the structure-rich text, which generates structured data of controllable complexity based on manually crafted question templates and generation rules. Building on this generation method, we introduce StructBench, a benchmark comprising 6,032 questions across 8 different structured languages and 29 specific tasks. Furthermore, considering human proficiency in rule-based tasks, we also present StructBench-Hard, which includes 3,016 questions designed to further examine the gap between LLMs and human performance. Results indicate that the best-performing LLM currently achieve an accuracy of 65.0\% on StructBench-Hard, while human accuracy reaches up to 95.7\%. Moreover, while fine-tuning using StructBench can enhance existing LLMs' understanding of all structured languages, it does not necessarily improve performance across all task types. The benchmark and generation codes are open sourced in https://github.com/MikeGu721/StructBench
Abstract（参考訳）: 多くの企業が保持する大量の構造化データを考えると、Large Language Models(LLM)は構造化されていない形式で構造化されたテキストを直接理解できるようになり、様々なビジネスシナリオにおけるそれらの能力を大幅に向上させることができる。そこで本研究では,手作業による質問テンプレートと生成規則に基づいて,制御可能な複雑性の構造化データを生成する構造化リッチテキストの理解能力を評価するための評価データ生成手法を提案する。この生成方法に基づいて,8言語にまたがる6,032の質問と29の特定のタスクからなるベンチマークであるStructBenchを紹介する。さらに,ルールベースタスクにおける人間の習熟度を考慮し,LLMと人的パフォーマンスのギャップをより深く調べるための3,016の質問を含むStructBench-Hardを提示する。結果は、現在最高の性能のLCMはStructBench-Hardで65.0\%、人間の精度は95.7\%に達することを示唆している。さらに、StructBenchを使った微調整により、既存のLLMのすべての構造化言語に対する理解が向上するが、すべてのタスクタイプでパフォーマンスが向上するとは限らない。ベンチマークと生成コードはhttps://github.com/MikeGu721/StructBenchで公開されている。

関連論文リスト

StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation [8.251302684712773]
StructTextは、テキストからキー値抽出のための高忠実度ベンチマークを自動的に生成するエンドツーエンドフレームワークである。提案手法は,49件の文書を対象とした71,539件のサンプルを用いて評価した。
論文参考訳（メタデータ） (2025-07-28T21:20:44Z)
StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs [39.108050455592036]
StructEvalは構造化フォーマットの生成におけるLarge Language Modelsの機能を評価するためのベンチマークである。我々のベンチマークは18の形式と44のタイプのタスクを含み、形式順守と構造的正当性のための新しい指標である。 o1-miniのような最先端のモデルでさえ平均スコアは75.58点に過ぎなかった。
論文参考訳（メタデータ） (2025-05-26T15:40:42Z)
The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats [0.0]
本研究では,非構造化テキストを構造化形式に変換する大規模言語モデルの能力を体系的に評価する。実験により、数発のプロンプトを持つGPT-4oがブレークスルー性能を達成することが明らかとなった。これらの発見は、様々な領域にまたがる自動構造化データ生成の新たな可能性を開く。
論文参考訳（メタデータ） (2025-03-04T14:14:28Z)
Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文参考訳（メタデータ） (2025-02-12T07:37:39Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
DRS: Deep Question Reformulation With Structured Output [114.14122339938697]
大規模言語モデル(LLM)は、解決不可能な質問を検知できるが、これらの質問の修正をユーザーが支援するのに苦労する。 DRS:Deep Question Reformulation with Structured Output, a novel zero-shot method for enhance to LLMs ability to help users in reformulation Question。 DRS は GPT-3.5 の改定精度を 23.03% から 70.42% に改善するとともに,Gemma2-9B などのオープンソースモデルの性能を 26.35% から 56.75% に向上させた。
論文参考訳（メタデータ） (2024-11-27T02:20:44Z)
Struct-X: Enhancing Large Language Models Reasoning with Structured Data [38.558614152006975]
構造Xは5つの重要なフェーズを通して動作する:read-model-fill-reflect-reason' 構造化データをグラフ埋め込みを用いて位相空間にエンコードする。行方不明のエンティティ情報を知識検索モジュールで埋める。最後のフェーズでは、選択したトークンでトポロジネットワークを構築する。
論文参考訳（メタデータ） (2024-07-17T13:06:25Z)
StructLM: Towards Building Generalist Models for Structured Knowledge Grounding [49.10029030628653]
大規模言語モデル(LLM)では、最先端(SoTA)モデルの背後にある構造化データラグを平均35%処理できる。私たちは、MistralとCodeLlamaモデルファミリに基づいたStructLMと呼ばれる一連のモデルをトレーニングします。我々のStructLMシリーズは、評価された18のデータセットのうち16のタスク固有モデルを超え、8つのSKGタスクに新しいSoTAパフォーマンスを確立する。
論文参考訳（メタデータ） (2024-02-26T15:47:01Z)
A Simple but Effective Approach to Improve Structured Language Model Output for Information Extraction [11.165093163378152]
大規模言語モデル(LLM)は、命令に従って非構造化自然言語を生成する際、印象的な能力を示した。本稿では,その構造的テキスト生成能力を高めるために,効率的なG&O手法を提案する。
論文参考訳（メタデータ） (2024-02-20T20:42:02Z)
Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文参考訳（メタデータ） (2024-01-18T18:15:46Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。 Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文参考訳（メタデータ） (2023-09-16T11:31:58Z)
StructGPT: A General Framework for Large Language Model to Reason over Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-05-16T17:45:23Z)
One Embedder, Any Task: Instruction-Finetuned Text Embeddings [105.82772523968961]
INSTRUCTORはタスク命令のテキスト埋め込みを計算するための新しい方法である。すべてのテキスト入力はユースケースを説明する指示と共に埋め込まれる。 InSTRUCTORを70の埋め込み評価タスクで評価する。
論文参考訳（メタデータ） (2022-12-19T18:57:05Z)
Explaining Patterns in Data with Language Models via Interpretable Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。 iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。 fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文参考訳（メタデータ） (2022-10-04T18:32:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。