論文の概要: Beyond Reference-Based Metrics: Analyzing Behaviors of Open LLMs on
Data-to-Text Generation
- arxiv url: http://arxiv.org/abs/2401.10186v1
- Date: Thu, 18 Jan 2024 18:15:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 15:51:14.212265
- Title: Beyond Reference-Based Metrics: Analyzing Behaviors of Open LLMs on
Data-to-Text Generation
- Title(参考訳): 基準に基づくメトリクスを超えて:データ-テキスト生成におけるオープンLLMの挙動の解析
- Authors: Zden\v{e}k Kasner, Ond\v{r}ej Du\v{s}ek
- Abstract要約: オープンな大言語モデル(LLM)が構造化データから一貫性のある関連テキストをどの程度生成できるかを検討する。
我々は、基準のない評価指標とLLMの文脈内学習能力を活用して、モデルをテストする。
本評価では, トークンレベルの意味的精度誤差のアノテートに着目し, GPT-4に基づくアノテータとメトリクスを組み合わせる。
- 参考スコア(独自算出の注目度): 2.9206268153110084
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate to which extent open large language models (LLMs) can generate
coherent and relevant text from structured data. To prevent bias from
benchmarks leaked into LLM training data, we collect Quintd-1: an ad-hoc
benchmark for five data-to-text (D2T) generation tasks, consisting of
structured data records in standard formats gathered from public APIs. We
leverage reference-free evaluation metrics and LLMs' in-context learning
capabilities, allowing us to test the models with no human-written references.
Our evaluation focuses on annotating semantic accuracy errors on token-level,
combining human annotators and a metric based on GPT-4. Our systematic
examination of the models' behavior across domains and tasks suggests that
state-of-the-art open LLMs with 7B parameters can generate fluent and coherent
text from various standard data formats in zero-shot settings. However, we also
show that semantic accuracy of the outputs remains a major issue: on our
benchmark, 80% of outputs of open LLMs contain a semantic error according to
human annotators (91% according to GPT-4). Our code, data, and model outputs
are available at https://d2t-llm.github.io.
- Abstract(参考訳): オープン大言語モデル(LLM)が構造化データから一貫性のある関連テキストをどの程度生成できるかを検討する。
llmトレーニングデータにリークされたベンチマークのバイアスを防止するために、公開apiから収集した標準フォーマットの構造化データレコードで構成される、5つのデータツーテキスト生成タスクのためのアドホックなベンチマークであるquintd-1を収集した。
参照フリーの評価メトリクスとllmsのコンテキスト内学習機能を活用し、人間が書いた参照なしでモデルをテストできます。
本評価では, トークンレベルの意味的精度誤差のアノテートに着目し, GPT-4に基づくアノテータとメトリクスを組み合わせる。
ドメインとタスク間でのモデルの振る舞いを体系的に検討した結果、7bパラメータを持つ最先端のオープンllmは、ゼロショット設定で様々な標準データフォーマットから、流れる、一貫性のあるテキストを生成することができることが示唆された。
しかし,出力のセマンティックな精度は依然として大きな問題であり,我々のベンチマークではオープン LLM の出力の80%が人間のアノテータによるセマンティックエラーを含む(GPT-4 では 91%)。
私たちのコード、データ、モデルの出力は、https://d2t-llm.github.ioで利用可能です。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Text-like Encoding of Collaborative Information in Large Language Models for Recommendation [58.87865271693269]
BinLLMはLarge Language Models for Recommendation (LLMRec)とシームレスに連携する新しい手法である。
BinLLMは、外部モデルからの協調的な埋め込みをバイナリシーケンスに変換する。
BinLLMは、ドット決定記法を用いてバイナリシーケンスを圧縮するオプションを提供し、過度に長い長さを避ける。
論文 参考訳(メタデータ) (2024-06-05T12:45:25Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Open-Source LLMs for Text Annotation: A Practical Guide for Model Setting and Fine-Tuning [5.822010906632045]
本稿では、政治科学研究に典型的なテキスト分類タスクにおけるオープンソースのLarge Language Models(LLM)の性能について検討する。
姿勢・話題・関連分類などの課題を調べることで,テキスト分析におけるLLMの使用に関する情報的判断を学者に指導することを目指す。
論文 参考訳(メタデータ) (2023-07-05T10:15:07Z) - Investigating Table-to-Text Generation Capabilities of LLMs in
Real-World Information Seeking Scenarios [32.84523661055774]
タブラルデータは様々な産業で広く使われており、ユーザが情報検索の目的を理解し、操作するのにかなりの時間と労力を要する。
テーブル情報探索における大規模言語モデル (LLM) の現実的応用は, いまだに実証されていない。
本稿では,2つの実世界情報探索シナリオ内の4つのデータセットを用いて,異なるLLMのテーブル・トゥ・テキスト機能について検討する。
論文 参考訳(メタデータ) (2023-05-24T10:22:30Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。