論文の概要: Beyond Reference-Based Metrics: Analyzing Behaviors of Open LLMs on
Data-to-Text Generation
- arxiv url: http://arxiv.org/abs/2401.10186v2
- Date: Mon, 19 Feb 2024 14:35:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 03:32:40.920212
- Title: Beyond Reference-Based Metrics: Analyzing Behaviors of Open LLMs on
Data-to-Text Generation
- Title(参考訳): 基準に基づくメトリクスを超えて:データ-テキスト生成におけるオープンLLMの挙動の解析
- Authors: Zden\v{e}k Kasner, Ond\v{r}ej Du\v{s}ek
- Abstract要約: データ・トゥ・テキスト・ジェネレーション(D2T)におけるオープン・大規模言語モデル(LLM)の振る舞いを解析する。
近年のオープン LLM は,標準データフォーマットからゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
オープンLLMの出力の80%以上は意味的誤りを含む。
- 参考スコア(独自算出の注目度): 2.9206268153110084
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We analyze the behaviors of open large language models (LLMs) on the task of
data-to-text (D2T) generation, i.e., generating coherent and relevant text from
structured data. To avoid the issue of LLM training data contamination with
standard benchmarks, we design Quintd - a tool for collecting novel structured
data records from public APIs. Using a dataset collected with Quintd and
leveraging reference-free evaluation, we analyze model behaviors on five D2T
generation tasks. We find that recent open LLMs (Llama2, Mistral, and Zephyr)
can generate fluent and coherent text from standard data formats in zero-shot
settings. However, we also show that the semantic accuracy of the outputs is a
major issue: both according to our GPT-4-based metric and human annotators,
more than 80% of the outputs of open LLMs contain a semantic error. We publicly
release the code, data, and model outputs.
- Abstract(参考訳): 構造化データからコヒーレントで関連するテキストを生成するD2T(Data-to-text)生成タスクにおいて,オープンな大規模言語モデル(LLM)の振る舞いを分析する。
標準ベンチマークによるLLMトレーニングデータの汚染を回避するため,公開APIから新たな構造化データレコードを収集するQuintdを設計した。
Quintdで収集したデータセットを用いて,5つのD2T生成タスクにおけるモデル挙動を分析する。
近年のオープンLLM(Llama2,Mistral,Zephyr)は,標準データフォーマットからゼロショット設定で,ゆるやかで一貫性のあるテキストを生成することができる。
しかし、GPT-4に基づく計量と人間のアノテータの両方によれば、オープンLLMの出力の80%以上は意味的誤りを含んでいる。
コード、データ、モデル出力を公開しています。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Text-like Encoding of Collaborative Information in Large Language Models for Recommendation [58.87865271693269]
BinLLMはLarge Language Models for Recommendation (LLMRec)とシームレスに連携する新しい手法である。
BinLLMは、外部モデルからの協調的な埋め込みをバイナリシーケンスに変換する。
BinLLMは、ドット決定記法を用いてバイナリシーケンスを圧縮するオプションを提供し、過度に長い長さを避ける。
論文 参考訳(メタデータ) (2024-06-05T12:45:25Z) - CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。
まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。
また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文 参考訳(メタデータ) (2024-04-08T21:15:36Z) - TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。
LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文 参考訳(メタデータ) (2024-01-24T04:28:50Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。
Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。
実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:31:58Z) - Open-Source LLMs for Text Annotation: A Practical Guide for Model Setting and Fine-Tuning [5.822010906632045]
本稿では、政治科学研究に典型的なテキスト分類タスクにおけるオープンソースのLarge Language Models(LLM)の性能について検討する。
姿勢・話題・関連分類などの課題を調べることで,テキスト分析におけるLLMの使用に関する情報的判断を学者に指導することを目指す。
論文 参考訳(メタデータ) (2023-07-05T10:15:07Z) - Investigating Table-to-Text Generation Capabilities of LLMs in
Real-World Information Seeking Scenarios [32.84523661055774]
タブラルデータは様々な産業で広く使われており、ユーザが情報検索の目的を理解し、操作するのにかなりの時間と労力を要する。
テーブル情報探索における大規模言語モデル (LLM) の現実的応用は, いまだに実証されていない。
本稿では,2つの実世界情報探索シナリオ内の4つのデータセットを用いて,異なるLLMのテーブル・トゥ・テキスト機能について検討する。
論文 参考訳(メタデータ) (2023-05-24T10:22:30Z) - Element-aware Summarization with Large Language Models: Expert-aligned
Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。
CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。
本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。
実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文 参考訳(メタデータ) (2023-05-22T18:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。