論文の概要: Large Language Models are Effective Table-to-Text Generators,
Evaluators, and Feedback Providers
- arxiv url: http://arxiv.org/abs/2305.14987v1
- Date: Wed, 24 May 2023 10:22:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:16:51.911654
- Title: Large Language Models are Effective Table-to-Text Generators,
Evaluators, and Feedback Providers
- Title(参考訳): 大規模言語モデルは効果的なテーブル・ツー・テキスト生成器、評価器、フィードバックプロバイダである
- Authors: Yilun Zhao, Haowei Zhang, Shengyun Si, Linyong Nan, Xiangru Tang,
Arman Cohan
- Abstract要約: 大きな言語モデル(LLM)は、制御可能なテキスト生成において顕著な能力を示している。
本稿では,テーブル・ツー・テキスト生成タスクにおけるLLMの能力について検討する。
- 参考スコア(独自算出の注目度): 18.968045179199795
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable ability on controllable
text generation. However, the potential of LLMs in generating text from
structured tables remains largely under-explored. In this paper, we study the
capabilities of LLMs for table-to-text generation tasks, particularly aiming to
investigate their performance in generating natural language statements that
can be logically entailed by a provided table. First, we investigate how LLMs
compare to state-of-the-art table-to-text fine-tuned models, and demonstrate
that LLMs can generate statements with higher faithfulness compared with
previous state-of-the-art fine-tuned models. Given this finding, we next
explore whether LLMs can serve as faithfulness-level automated evaluation
metrics. Through human evaluation, we show that evaluation metrics adopted from
LLMs correlates better with human judgments compared with existing
faithfulness-level metrics. Finally, we demonstrate that LLMs using
chain-of-thought prompting can generate high-fidelity natural language feedback
for other table-to-text models' generations, provide insights for future work
regarding the distillation of text generation capabilities from LLMs to smaller
models.
- Abstract(参考訳): 大きな言語モデル(LLM)は、制御可能なテキスト生成において顕著な能力を示している。
しかし、構造化テーブルからテキストを生成するllmの可能性はほとんど未検討のままである。
本稿では,テーブル・ツー・テクスチャ生成タスクにおけるLLMの能力について検討し,特に提供するテーブルに論理的に関連付けられる自然言語文の生成におけるそれらの性能について検討する。
まず、LLMが最先端のテーブル・トゥ・テクストの微調整モデルと比較し、従来の最先端の微調整モデルと比較して忠実な文を生成することを示す。
この結果から,LLMが信頼度レベルの自動評価指標として機能するかどうかを検討する。
人的評価を通して, LLMから採用した評価指標は, 既存の忠実度レベルの指標と比較して, 人的判断と相関することを示した。
最後に、チェーン・オブ・シークレット・プロンプトを用いたLLMが、他のテーブル・オブ・テキストモデル世代に対して高忠実な自然言語フィードバックを生成できることを示し、LLMからより小さなモデルへのテキスト生成能力の蒸留に関する今後の研究の洞察を提供する。
関連論文リスト
- MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つ小型モデルを400倍のコストで構築する方法を示す。
既存のデータセットを LLM-AggreFact ベンチマークにまとめる。
我々の最良のシステム MiniCheck-FT5 (770Mパラメータ) は、同等の大きさの全てのシステムより優れ、GPT-4精度に達する。
論文 参考訳(メタデータ) (2024-04-16T17:59:10Z) - Unsupervised Information Refinement Training of Large Language Models
for Retrieval-Augmented Generation [133.52393894760107]
InFO-RAG という情報改質訓練手法を提案する。
InFO-RAGは低コストで、様々なタスクにまたがっている。
LLaMA2の性能を平均9.39%向上させる。
論文 参考訳(メタデータ) (2024-02-28T08:24:38Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - Beyond Reference-Based Metrics: Analyzing Behaviors of Open LLMs on
Data-to-Text Generation [2.9206268153110084]
データ・トゥ・テキスト・ジェネレーション(D2T)におけるオープン・大規模言語モデル(LLM)の振る舞いを解析する。
近年のオープン LLM は,標準データフォーマットからゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
オープンLLMの出力の80%以上は意味的誤りを含む。
論文 参考訳(メタデータ) (2024-01-18T18:15:46Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation
in ultra low-data regimes [62.94611066903098]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Can LLMs Augment Low-Resource Reading Comprehension Datasets?
Opportunities and Challenges [3.358625623993593]
GPT-4は、既存の読解データセットを強化するために使用できる。
この研究は、QAシステムのための合成データ拡張器としてLLMを初めて分析した。
論文 参考訳(メタデータ) (2023-09-21T18:48:02Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Large Language Models as Data Preprocessors [10.914067455923847]
OpenAIのGPTシリーズとMetaのLLaMAに代表されるLarge Language Models (LLMs)は、人工知能において大きな進歩を遂げている。
この研究は、LLMの応用を拡大し、データ前処理におけるその可能性を探る。
我々は,最先端のプロンプト技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language
Models [13.659853119356507]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクにおいて印象的な能力を示した。
彼らは幻覚を起こす傾向があり、モデルがその反応の中で誤った情報や誤った情報を公開する。
ユーザによるQ&Aデータセットに対するLLMの性能評価を可能にする新しい可視化手法として,LLMMapsを提案する。
論文 参考訳(メタデータ) (2023-04-02T05:47:09Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。