論文の概要: Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?
- arxiv url: http://arxiv.org/abs/2309.08963v3
- Date: Thu, 4 Apr 2024 21:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 20:40:00.670062
- Title: Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?
- Title(参考訳): Struc-Bench: 大規模言語モデルは複雑な構造化データを生成するのに本当に優れているか?
- Authors: Xiangru Tang, Yiming Zong, Jason Phang, Yilun Zhao, Wangchunshu Zhou, Arman Cohan, Mark Gerstein,
- Abstract要約: Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
- 参考スコア(独自算出の注目度): 49.688233418425995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable capabilities of Large Language Models (LLMs) like GPT-4, producing complex, structured tabular data remains challenging. Our study assesses LLMs' proficiency in structuring tables and introduces a novel fine-tuning method, cognizant of data structures, to bolster their performance. We unveil Struc-Bench, a comprehensive benchmark featuring prominent LLMs (GPT-NeoX-20B, GPT-3.5, GPT-4, and Vicuna), which spans text tables, HTML, and LaTeX formats. Our proposed FormatCoT aids in crafting format-specific instructions from the intended outputs to populate this benchmark. Addressing the gap in task-centered evaluation, we propose two innovative metrics, P-Score (Prompting Score) and H-Score (Heuristical Score), to more accurately gauge LLM performance. Our experiments show that applying our structure-aware fine-tuning to LLaMA-7B leads to substantial performance gains, outshining its LLM counterparts across most measures. In-depth error analysis and creating an ability map across six dimensions -- coverage, formatting, reasoning, comprehension, pragmatics, and hallucination -- highlight areas for future enhancements and suggest forthcoming research trajectories. Our code and models can be found at https://github.com/gersteinlab/Struc-Bench.
- Abstract(参考訳): GPT-4のような大規模言語モデル(LLM)の驚くべき機能にもかかわらず、複雑な構造化表データを生成することは依然として困難である。
本研究は, テーブル構造におけるLCMの習熟度を評価し, データ構造を認識するためのファインチューニング手法を提案する。
我々は、テキストテーブル、HTML、LaTeXフォーマットにまたがる優れたLCM(GPT-NeoX-20B、GPT-3.5、GPT-4、Vicuna)を特徴とする総合ベンチマークであるStruc-Benchを発表した。
提案する FormatCoT は,提案する出力からフォーマット固有の命令を作成して,このベンチマークを投入する。
タスク中心評価のギャップに対処するため、より正確にLCM性能を評価するために、Pスコア(Prompting Score)とHスコア(Heuristical Score)という2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると性能が大幅に向上し,LLMの精度が向上することがわかった。
詳細なエラー分析と、6次元にわたる能力マップの作成 – カバレッジ、フォーマット、推論、理解、実践、幻覚 – は、将来の拡張の領域を強調し、今後の研究軌道を提案する。
私たちのコードとモデルは、https://github.com/gersteinlab/Struc-Bench.orgにある。
関連論文リスト
- Large Language Models for Data Annotation: A Survey [58.454724454158814]
LLM(Advanced Large Language Models)の出現は、データアノテーションのプロセスに革命を起こし、自動化する前例のない機会を提供する。
この調査は、LLMベースのデータ、LLM生成アノテーションの評価、LLM生成アノテーションによる学習の3つの中核的な側面に貢献する。
重要なガイドとして、この調査は、研究者や実践者がデータアノテーションのための最新のLCMの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2024-02-21T00:44:04Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Beyond Reference-Based Metrics: Analyzing Behaviors of Open LLMs on
Data-to-Text Generation [2.9206268153110084]
データ・トゥ・テキスト・ジェネレーション(D2T)におけるオープン・大規模言語モデル(LLM)の振る舞いを解析する。
近年のオープン LLM は,標準データフォーマットからゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
オープンLLMの出力の80%以上は意味的誤りを含む。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - What Makes for Good Visual Instructions? Synthesizing Complex Visual
Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング
本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。
我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-11-02T15:36:12Z) - Can Text-based Knowledge Graph Completion Benefit From Zero-Shot Large
Language Models? [10.56565195524981]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著に改善されている。
本研究では,より効率的なテキスト記述がモデル性能を増幅できるかどうかを考察する。
論文 参考訳(メタデータ) (2023-10-12T12:31:23Z) - Table Meets LLM: Can Large Language Models Understand Structured Table
Data? A Benchmark and Empirical Study [47.6239689986714]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
我々は,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計することで,これを理解しようとしている。
その結果、テーブル入力形式、コンテンツ順序、ロールプロンプト、パーティションマークなど、いくつかの入力選択によってパフォーマンスが変化していることが判明した。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。