論文の概要: Struc-Bench: Are Large Language Models Really Good at Generating Complex
Structured Data?
- arxiv url: http://arxiv.org/abs/2309.08963v2
- Date: Tue, 19 Sep 2023 05:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 11:09:54.936989
- Title: Struc-Bench: Are Large Language Models Really Good at Generating Complex
Structured Data?
- Title(参考訳): Struc-Bench: 大規模言語モデルは複雑な構造化データを生成するのに本当に優れているか?
- Authors: Xiangru Tang, Yiming Zong, Jason Phang, Yilun Zhao, Wangchunshu Zhou,
Arman Cohan, Mark Gerstein
- Abstract要約: 現在のLarge Language Models (LLM) は複雑な構造化された出力を生成する必要のあるタスクと競合する。
本稿では,この能力向上のソリューションとして,構造を考慮した微調整手法を提案する。
実験の結果,LLaMA-7Bに適用した場合,構造認識による微調整手法は自然言語の制約への順応性を著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 52.17988569079598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the power of Large Language Models (LLMs) like GPT-4, they still
struggle with tasks that require generating complex, structured outputs. In
this study, we assess the capability of Current LLMs in generating complex
structured data and propose a structure-aware fine-tuning approach as a
solution to improve this ability. To perform a comprehensive evaluation, we
propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B,
GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed
datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of
current model performance, we identify specific common formatting errors and
areas of potential improvement. To address complex formatting requirements, we
utilize FormatCoT (Chain-of-Thought) to generate format instructions from
target outputs. Our experiments show that our structure-aware fine-tuning
method, when applied to LLaMA-7B, significantly improves adherence to natural
language constraints, outperforming other evaluated LLMs. Based on these
results, we present an ability map of model capabilities from six dimensions
(i.e., coverage, formatting, reasoning, comprehension, pragmatics, and
hallucination). This map highlights the weaknesses of LLMs in handling complex
structured outputs and suggests promising directions for future work. Our code
and models can be found at https://github.com/gersteinlab/Struc-Bench.
- Abstract(参考訳): GPT-4のようなLarge Language Models(LLM)のパワーにもかかわらず、複雑な構造化された出力を生成する必要のあるタスクに苦戦している。
本研究では, 複素構造データの生成における電流LLMの性能評価を行い, 構造を考慮した微調整手法を提案する。
包括的評価を行うために,struc-benchを提案する。5つの代表的なllm(gpt-neox 20b,gpt-3.5,gpt-4,vicuna)を含み,生のテキスト,html,latexテーブルにまたがる注意深く構築されたデータセット上で評価する。
現在のモデル性能の分析に基づいて、特定の共通フォーマットエラーと潜在的な改善領域を同定する。
複雑なフォーマット要求に対処するために、FormatCoT(Chain-of-Thought)を使用してターゲット出力からフォーマット命令を生成する。
実験により,LLaMA-7Bに適用した構造認識微調整法は,自然言語制約の順守を著しく改善し,他の評価LCMよりも優れた性能を示した。
これらの結果に基づいて,6次元のモデル能力の能力マップ(カバレッジ,フォーマット,推論,理解,実用,幻覚)を示す。
このマップは、複雑な構造化された出力を扱う際のLCMの弱点を強調し、将来の作業に期待できる方向性を提案する。
私たちのコードとモデルはhttps://github.com/gersteinlab/struc-benchにあります。
関連論文リスト
- StructLM: Towards Building Generalist Models for Structured Knowledge
Grounding [50.73401326337493]
StructLMは、評価された18のデータセットのうち14のタスク固有のモデルを上回る一連のモデルである。
予測とは対照的に,StructLM-34BはStructLM-7Bよりもわずかに改善されている。
論文 参考訳(メタデータ) (2024-02-26T15:47:01Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over
Tabular and Textual Data [77.66158066013924]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z) - Table Meets LLM: Can Large Language Models Understand Structured Table
Data? A Benchmark and Empirical Study [47.6239689986714]
大規模言語モデル(LLM)は、自然言語(NL)に関連する課題を解決するために、数ショットの推論器として魅力的になってきている。
我々は,LLMの構造理解能力(SUC)を評価するためのベンチマークを設計することで,これを理解しようとしている。
その結果、テーブル入力形式、コンテンツ順序、ロールプロンプト、パーティションマークなど、いくつかの入力選択によってパフォーマンスが変化していることが判明した。
論文 参考訳(メタデータ) (2023-05-22T14:23:46Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - StrAE: Autoencoding for Pre-Trained Embeddings using Explicit Structure [5.2869308707704255]
StrAEは構造化オートエンコーダフレームワークであり、明示的な構造に厳格に固執することで、マルチレベル表現の効果的な学習を可能にする。
本研究の結果は,入力として提供される構造に直接的な関連性があることを示し,既存のツリーモデルではそうではないことを示す。
次に、StrAEを拡張して、単純なローカライズ・マージアルゴリズムを用いてモデルが独自の構成を定義する。
論文 参考訳(メタデータ) (2023-05-09T16:20:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。