Fugu-MT 論文翻訳(概要): StrucText-Eval: Evaluating Large Language Model's Reasoning Ability in Structure-Rich Text

論文の概要: StrucText-Eval: Evaluating Large Language Model's Reasoning Ability in Structure-Rich Text

arxiv url: http://arxiv.org/abs/2406.10621v3
Date: Mon, 21 Oct 2024 11:06:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.679051
Title: StrucText-Eval: Evaluating Large Language Model's Reasoning Ability in Structure-Rich Text
Title（参考訳）: StrucText-Eval:構造リッチテキストにおける大規模言語モデルの推論能力の評価
Authors: Zhouhong Gu, Haoning Ye, Xingzhou Chen, Zeyang Zhou, Hongwei Feng, Yanghua Xiao,
Abstract要約: 我々はStrucText-Evalという,構造化テキストによる大規模言語モデルの理解と推論の精度を評価するベンチマークを紹介した。オープンソース LLM が標準データセットで74.9% の最大精度を達成する一方で、そのパフォーマンスはより難しいデータセットで45.8% に大幅に低下していることを示す。対照的に、人間の参加者はStrucText-Eval-Hardで92.6%の精度に達し、複雑な構造情報を扱うLLMの現在の限界を強調している。
参考スコア（独自算出の注目度）: 29.03935605732864
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The effective utilization of structured data, integral to corporate data strategies, has been challenged by the rise of large language models (LLMs) capable of processing unstructured information. This shift prompts the question: can LLMs interpret structured data directly in its unstructured form? We propose an automatic evaluation data generation method for assessing LLMs' reasoning capabilities on structure-rich text to explore this. Our approach supports 8 structured languages and 29 tasks, generating data with adjustable complexity through controllable nesting and structural width. We introduce StrucText-Eval, a benchmark containing 5,800 pre-generated and annotated samples designed to evaluate how well LLMs understand and reason through structured text. StrucText-Eval is divided into two suites: a regular Test suite (3,712 samples) and a Test-Hard suite (2,088 samples), the latter emphasizing the gap between human and model performance on more complex tasks. Experimental results show that while open-source LLMs achieve a maximum accuracy of 74.9\% on the standard dataset, their performance drops significantly to 45.8\% on the harder dataset. In contrast, human participants reach an accuracy of 92.6\% on StrucText-Eval-Hard, highlighting LLMs' current limitations in handling intricate structural information. The benchmark and generation codes are open sourced in \url{https://github.com/MikeGu721/StrucText-Eval}
Abstract（参考訳）: 企業データ戦略に不可欠な構造化データの有効利用は、構造化されていない情報を処理できる大規模言語モデル(LLM)の台頭によって困難になってきた。 LLMは構造化データを直接非構造化形式で解釈できるのか? 本稿では,LLMの推論能力を評価するための自動評価データ生成手法を提案する。我々のアプローチは8つの構造化言語と29のタスクをサポートし、制御可能なネストと構造幅によって、調整可能な複雑さを持つデータを生成する。 SrucText-Evalは、5,800の事前生成および注釈付きサンプルを含むベンチマークで、LLMが構造化されたテキストを通してどのように理解し、推論するかを評価する。 StrucText-Evalは、通常のTestスイート(3,712サンプル)とTest-Hardスイート(2,088サンプル)の2つのスイートに分かれている。実験の結果、オープンソースのLCMは標準データセットで74.9\%の最大精度を達成しているが、その性能はより難しいデータセットで45.8\%に大幅に低下した。対照的に、人間の参加者はStrucText-Eval-Hardで92.6\%の精度に達し、複雑な構造情報を扱うLLMの現在の限界を強調している。ベンチマークと生成コードは \url{https://github.com/MikeGu721/StrucText-Eval} でオープンソース化されている。

関連論文リスト

LLMStructBench: Benchmarking Large Language Model Structured Data Extraction [1.338174941551702]
LLM(Large Language Models)の評価のための新しいベンチマークを提案する。私たちのオープンデータセットは、さまざまな複雑さの多様な手作業による解析シナリオで構成されています。モデルサイズなどの標準属性よりも適切なプロンプト戦略を選択することが重要であることを示す。
論文参考訳（メタデータ） (2026-02-16T13:37:58Z)
OmniStruct: Universal Text-to-Structure Generation across Diverse Schemas [57.49565459553627]
OmniStructは、テキストから構造までのタスクにおいて、大規模言語モデルの能力を評価するためのベンチマークである。我々は,効率的なテキスト・ツー・ストラクチャ・モデルの開発を容易にするために,合成タスク生成による高品質なトレーニングデータを収集する。本実験は, 合成データのより小さなモデルから, 普遍構造生成モデルへの微調整の可能性を示すものである。
論文参考訳（メタデータ） (2025-11-23T08:18:12Z)
StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation [8.251302684712773]
StructTextは、テキストからキー値抽出のための高忠実度ベンチマークを自動的に生成するエンドツーエンドフレームワークである。提案手法は,49件の文書を対象とした71,539件のサンプルを用いて評価した。
論文参考訳（メタデータ） (2025-07-28T21:20:44Z)
Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
StructEval: Benchmarking LLMs' Capabilities to Generate Structural Outputs [39.108050455592036]
StructEvalは構造化フォーマットの生成におけるLarge Language Modelsの機能を評価するためのベンチマークである。我々のベンチマークは18の形式と44のタイプのタスクを含み、形式順守と構造的正当性のための新しい指標である。 o1-miniのような最先端のモデルでさえ平均スコアは75.58点に過ぎなかった。
論文参考訳（メタデータ） (2025-05-26T15:40:42Z)
The Effectiveness of Large Language Models in Transforming Unstructured Text to Standardized Formats [0.0]
本研究では,非構造化テキストを構造化形式に変換する大規模言語モデルの能力を体系的に評価する。実験により、数発のプロンプトを持つGPT-4oがブレークスルー性能を達成することが明らかとなった。これらの発見は、様々な領域にまたがる自動構造化データ生成の新たな可能性を開く。
論文参考訳（メタデータ） (2025-03-04T14:14:28Z)
Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文参考訳（メタデータ） (2025-02-12T07:37:39Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
DRS: Deep Question Reformulation With Structured Output [114.14122339938697]
大規模言語モデル(LLM)は、解決不可能な質問を検知できるが、これらの質問の修正をユーザーが支援するのに苦労する。 DRS:Deep Question Reformulation with Structured Output, a novel zero-shot method for enhance to LLMs ability to help users in reformulation Question。 DRS は GPT-3.5 の改定精度を 23.03% から 70.42% に改善するとともに,Gemma2-9B などのオープンソースモデルの性能を 26.35% から 56.75% に向上させた。
論文参考訳（メタデータ） (2024-11-27T02:20:44Z)
Struct-X: Enhancing Large Language Models Reasoning with Structured Data [38.558614152006975]
構造Xは5つの重要なフェーズを通して動作する:read-model-fill-reflect-reason' 構造化データをグラフ埋め込みを用いて位相空間にエンコードする。行方不明のエンティティ情報を知識検索モジュールで埋める。最後のフェーズでは、選択したトークンでトポロジネットワークを構築する。
論文参考訳（メタデータ） (2024-07-17T13:06:25Z)
StructLM: Towards Building Generalist Models for Structured Knowledge Grounding [49.10029030628653]
大規模言語モデル(LLM)では、最先端(SoTA)モデルの背後にある構造化データラグを平均35%処理できる。私たちは、MistralとCodeLlamaモデルファミリに基づいたStructLMと呼ばれる一連のモデルをトレーニングします。我々のStructLMシリーズは、評価された18のデータセットのうち16のタスク固有モデルを超え、8つのSKGタスクに新しいSoTAパフォーマンスを確立する。
論文参考訳（メタデータ） (2024-02-26T15:47:01Z)
A Simple but Effective Approach to Improve Structured Language Model Output for Information Extraction [11.165093163378152]
大規模言語モデル(LLM)は、命令に従って非構造化自然言語を生成する際、印象的な能力を示した。本稿では,その構造的テキスト生成能力を高めるために,効率的なG&O手法を提案する。
論文参考訳（メタデータ） (2024-02-20T20:42:02Z)
Beyond Traditional Benchmarks: Analyzing Behaviors of Open LLMs on Data-to-Text Generation [0.0]
データ・トゥ・テキスト(D2T)生成タスクにおけるオープン・大規模言語モデル(LLM)の挙動を解析する。オープン LLM は,Quintd で収集した共通フォーマットのデータから,ゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
論文参考訳（メタデータ） (2024-01-18T18:15:46Z)
DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文参考訳（メタデータ） (2023-10-31T04:37:57Z)
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。 Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文参考訳（メタデータ） (2023-09-16T11:31:58Z)
StructGPT: A General Framework for Large Language Model to Reason over Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-05-16T17:45:23Z)
One Embedder, Any Task: Instruction-Finetuned Text Embeddings [105.82772523968961]
INSTRUCTORはタスク命令のテキスト埋め込みを計算するための新しい方法である。すべてのテキスト入力はユースケースを説明する指示と共に埋め込まれる。 InSTRUCTORを70の埋め込み評価タスクで評価する。
論文参考訳（メタデータ） (2022-12-19T18:57:05Z)
Explaining Patterns in Data with Language Models via Interpretable Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。 iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。 fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文参考訳（メタデータ） (2022-10-04T18:32:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。