Fugu-MT 論文翻訳(概要): Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?

論文の概要: Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?

arxiv url: http://arxiv.org/abs/2309.08963v2
Date: Tue, 19 Sep 2023 05:58:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-20 11:09:54.936989
Title: Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data?
Title（参考訳）: Struc-Bench: 大規模言語モデルは複雑な構造化データを生成するのに本当に優れているか?
Authors: Xiangru Tang, Yiming Zong, Jason Phang, Yilun Zhao, Wangchunshu Zhou, Arman Cohan, Mark Gerstein
Abstract要約: 現在のLarge Language Models (LLM) は複雑な構造化された出力を生成する必要のあるタスクと競合する。本稿では,この能力向上のソリューションとして,構造を考慮した微調整手法を提案する。実験の結果,LLaMA-7Bに適用した場合,構造認識による微調整手法は自然言語の制約への順応性を著しく向上することがわかった。
参考スコア（独自算出の注目度）: 52.17988569079598
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the power of Large Language Models (LLMs) like GPT-4, they still struggle with tasks that require generating complex, structured outputs. In this study, we assess the capability of Current LLMs in generating complex structured data and propose a structure-aware fine-tuning approach as a solution to improve this ability. To perform a comprehensive evaluation, we propose Struc-Bench, include five representative LLMs (i.e., GPT-NeoX 20B, GPT-3.5, GPT-4, and Vicuna) and evaluate them on our carefully constructed datasets spanning raw text, HTML, and LaTeX tables. Based on our analysis of current model performance, we identify specific common formatting errors and areas of potential improvement. To address complex formatting requirements, we utilize FormatCoT (Chain-of-Thought) to generate format instructions from target outputs. Our experiments show that our structure-aware fine-tuning method, when applied to LLaMA-7B, significantly improves adherence to natural language constraints, outperforming other evaluated LLMs. Based on these results, we present an ability map of model capabilities from six dimensions (i.e., coverage, formatting, reasoning, comprehension, pragmatics, and hallucination). This map highlights the weaknesses of LLMs in handling complex structured outputs and suggests promising directions for future work. Our code and models can be found at https://github.com/gersteinlab/Struc-Bench.
Abstract（参考訳）: GPT-4のようなLarge Language Models(LLM)のパワーにもかかわらず、複雑な構造化された出力を生成する必要のあるタスクに苦戦している。本研究では, 複素構造データの生成における電流LLMの性能評価を行い, 構造を考慮した微調整手法を提案する。包括的評価を行うために,struc-benchを提案する。5つの代表的なllm(gpt-neox 20b,gpt-3.5,gpt-4,vicuna)を含み,生のテキスト,html,latexテーブルにまたがる注意深く構築されたデータセット上で評価する。現在のモデル性能の分析に基づいて、特定の共通フォーマットエラーと潜在的な改善領域を同定する。複雑なフォーマット要求に対処するために、FormatCoT(Chain-of-Thought)を使用してターゲット出力からフォーマット命令を生成する。実験により,LLaMA-7Bに適用した構造認識微調整法は,自然言語制約の順守を著しく改善し,他の評価LCMよりも優れた性能を示した。これらの結果に基づいて,6次元のモデル能力の能力マップ(カバレッジ,フォーマット,推論,理解,実用,幻覚)を示す。このマップは、複雑な構造化された出力を扱う際のLCMの弱点を強調し、将来の作業に期待できる方向性を提案する。私たちのコードとモデルはhttps://github.com/gersteinlab/struc-benchにあります。

関連論文リスト

RealHiTBench: A Comprehensive Realistic Hierarchical Table Benchmark for Evaluating LLM-Based Table Analysis [16.572608600078922]
RealHiTBenchは、様々な入力フォーマットにわたるLarge Language Models (LLM)のパフォーマンスを評価するために設計されたベンチマークである。 LLMを25個使用した実験の結果,RealHiTBenchは本当に難しいベンチマークであることがわかった。また、階層的なヘッダをツリー構造に整理するツリーベースのパイプラインであるTreeThinkerも開発しています。
論文参考訳（メタデータ） (2025-06-16T12:19:08Z)
A Large-scale Class-level Benchmark Dataset for Code Generation with LLMs [3.458772578520879]
我々は、13,174ドルのオープンソースのプロジェクトから収集した大規模なPythonクラスレベルのデータセットを紹介します。データセットには842,000以上のクラススケルトンが含まれている。抽出されたクラススケルトンを,全クラス実装を生成するためのGPT-4のプロンプトとして使用する。その結果, LLM 生成クラスは, 平均 ROUGE@L, BLEU, TSED スコア0.80, 0.59, 0.73 と強い語彙的および構造的類似性を示した。
論文参考訳（メタデータ） (2025-04-22T03:33:57Z)
Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文参考訳（メタデータ） (2024-10-08T17:02:40Z)
Enhancing LLM's Cognition via Structurization [41.13997892843677]
大規模言語モデル(LLM)は因果的かつシーケンシャルな視点で入力コンテキストを処理する。本稿では,コンテキスト構造化という新しい概念を提案する。具体的には、平易で秩序のない文脈文を、適切に順序付けされ階層的に構造化された要素に変換する。
論文参考訳（メタデータ） (2024-07-23T12:33:58Z)
Struct-X: Enhancing Large Language Models Reasoning with Structured Data [38.558614152006975]
構造Xは5つの重要なフェーズを通して動作する:read-model-fill-reflect-reason' 構造化データをグラフ埋め込みを用いて位相空間にエンコードする。行方不明のエンティティ情報を知識検索モジュールで埋める。最後のフェーズでは、選択したトークンでトポロジネットワークを構築する。
論文参考訳（メタデータ） (2024-07-17T13:06:25Z)
Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。 KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文参考訳（メタデータ） (2024-06-20T13:07:38Z)
StrucText-Eval: Evaluating Large Language Model's Reasoning Ability in Structure-Rich Text [29.03935605732864]
我々はStrucText-Evalという,構造化テキストによる大規模言語モデルの理解と推論の精度を評価するベンチマークを紹介した。オープンソース LLM が標準データセットで74.9% の最大精度を達成する一方で、そのパフォーマンスはより難しいデータセットで45.8% に大幅に低下していることを示す。対照的に、人間の参加者はStrucText-Eval-Hardで92.6%の精度に達し、複雑な構造情報を扱うLLMの現在の限界を強調している。
論文参考訳（メタデータ） (2024-06-15T12:48:00Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。 LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文参考訳（メタデータ） (2023-12-11T09:44:41Z)
What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning [115.19451843294154]
マルチモーダル大言語モデル(MLLM)のゼロショット一般化能力向上のためのビジュアルインストラクションチューニング本稿では,高品質な視覚的推論命令を自動生成するための体系的アプローチを提案する。我々のデータセットは、MME-CognitionにおけるMiniGPT-4とBLIP-2の性能をそれぞれ32.6%、28.8%向上させるなど、比較したMLLMの性能を一貫して向上させる。
論文参考訳（メタデータ） (2023-11-02T15:36:12Z)
StructGPT: A General Framework for Large Language Model to Reason over Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-05-16T17:45:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。