Fugu-MT 論文翻訳(概要): Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?

論文の概要: Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?

arxiv url: http://arxiv.org/abs/2309.08963v3
Date: Thu, 4 Apr 2024 21:57:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 20:40:00.670062
Title: Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?
Title（参考訳）: Struc-Bench: 大規模言語モデルは複雑な構造化データを生成するのに本当に優れているか?
Authors: Xiangru Tang, Yiming Zong, Jason Phang, Yilun Zhao, Wangchunshu Zhou, Arman Cohan, Mark Gerstein,
Abstract要約: Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。 Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
参考スコア（独自算出の注目度）: 49.688233418425995
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the remarkable capabilities of Large Language Models (LLMs) like GPT-4, producing complex, structured tabular data remains challenging. Our study assesses LLMs' proficiency in structuring tables and introduces a novel fine-tuning method, cognizant of data structures, to bolster their performance. We unveil Struc-Bench, a comprehensive benchmark featuring prominent LLMs (GPT-NeoX-20B, GPT-3.5, GPT-4, and Vicuna), which spans text tables, HTML, and LaTeX formats. Our proposed FormatCoT aids in crafting format-specific instructions from the intended outputs to populate this benchmark. Addressing the gap in task-centered evaluation, we propose two innovative metrics, P-Score (Prompting Score) and H-Score (Heuristical Score), to more accurately gauge LLM performance. Our experiments show that applying our structure-aware fine-tuning to LLaMA-7B leads to substantial performance gains, outshining its LLM counterparts across most measures. In-depth error analysis and creating an ability map across six dimensions -- coverage, formatting, reasoning, comprehension, pragmatics, and hallucination -- highlight areas for future enhancements and suggest forthcoming research trajectories. Our code and models can be found at https://github.com/gersteinlab/Struc-Bench.
Abstract（参考訳）: GPT-4のような大規模言語モデル(LLM)の驚くべき機能にもかかわらず、複雑な構造化表データを生成することは依然として困難である。本研究は, テーブル構造におけるLCMの習熟度を評価し, データ構造を認識するためのファインチューニング手法を提案する。我々は、テキストテーブル、HTML、LaTeXフォーマットにまたがる優れたLCM(GPT-NeoX-20B、GPT-3.5、GPT-4、Vicuna)を特徴とする総合ベンチマークであるStruc-Benchを発表した。提案する FormatCoT は,提案する出力からフォーマット固有の命令を作成して,このベンチマークを投入する。タスク中心評価のギャップに対処するため、より正確にLCM性能を評価するために、Pスコア(Prompting Score)とHスコア(Heuristical Score)という2つの革新的な指標を提案する。実験の結果,LLaMA-7Bに構造認識の微調整を適用すると性能が大幅に向上し,LLMの精度が向上することがわかった。詳細なエラー分析と、6次元にわたる能力マップの作成 – カバレッジ、フォーマット、推論、理解、実践、幻覚 – は、将来の拡張の領域を強調し、今後の研究軌道を提案する。私たちのコードとモデルは、https://github.com/gersteinlab/Struc-Bench.orgにある。

関連論文リスト

A Large-scale Class-level Benchmark Dataset for Code Generation with LLMs [3.458772578520879]
我々は、13,174ドルのオープンソースのプロジェクトから収集した大規模なPythonクラスレベルのデータセットを紹介します。データセットには842,000以上のクラススケルトンが含まれている。抽出されたクラススケルトンを,全クラス実装を生成するためのGPT-4のプロンプトとして使用する。その結果, LLM 生成クラスは, 平均 ROUGE@L, BLEU, TSED スコア0.80, 0.59, 0.73 と強い語彙的および構造的類似性を示した。
論文参考訳（メタデータ） (2025-04-22T03:33:57Z)
Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文参考訳（メタデータ） (2024-10-08T17:02:40Z)
Enhancing LLM's Cognition via Structurization [41.13997892843677]
大規模言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理する。本稿では,コンテキスト構造化という新しい概念を提案する。具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。
論文参考訳（メタデータ） (2024-07-23T12:33:58Z)
Struct-X: Enhancing Large Language Models Reasoning with Structured Data [38.558614152006975]
構造Xは5つの重要なフェーズを通して動作する:read-model-fill-reflect-reason' 構造化データをグラフ埋め込みを用いて位相空間にエンコードする。行方不明のエンティティ情報を知識検索モジュールで埋める。最後のフェーズでは、選択したトークンでトポロジネットワークを構築する。
論文参考訳（メタデータ） (2024-07-17T13:06:25Z)
Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。 KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文参考訳（メタデータ） (2024-06-20T13:07:38Z)
StrucText-Eval: Evaluating Large Language Model's Reasoning Ability in Structure-Rich Text [29.03935605732864]
我々はStrucText-Evalという,構造化テキストによる大規模言語モデルの理解と推論の精度を評価するベンチマークを紹介した。オープンソース LLM が標準データセットで74.9% の最大精度を達成する一方で、そのパフォーマンスはより難しいデータセットで45.8% に大幅に低下していることを示す。対照的に、人間の参加者はStrucText-Eval-Hardで92.6%の精度に達し、複雑な構造情報を扱うLLMの現在の限界を強調している。
論文参考訳（メタデータ） (2024-06-15T12:48:00Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。 LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文参考訳（メタデータ） (2023-12-11T09:44:41Z)
What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文参考訳（メタデータ） (2023-11-02T15:36:12Z)
StructGPT: A General Framework for Large Language Model to Reason over Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-05-16T17:45:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。