Fugu-MT 論文翻訳(概要): Beyond Reference-Based Metrics: Analyzing Behaviors of Open LLMs on Data-to-Text Generation

論文の概要: Beyond Reference-Based Metrics: Analyzing Behaviors of Open LLMs on Data-to-Text Generation

arxiv url: http://arxiv.org/abs/2401.10186v1
Date: Thu, 18 Jan 2024 18:15:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-19 15:51:14.212265
Title: Beyond Reference-Based Metrics: Analyzing Behaviors of Open LLMs on Data-to-Text Generation
Title（参考訳）: 基準に基づくメトリクスを超えて:データ-テキスト生成におけるオープンLLMの挙動の解析
Authors: Zden\v{e}k Kasner, Ond\v{r}ej Du\v{s}ek
Abstract要約: オープンな大言語モデル(LLM)が構造化データから一貫性のある関連テキストをどの程度生成できるかを検討する。我々は、基準のない評価指標とLLMの文脈内学習能力を活用して、モデルをテストする。本評価では, トークンレベルの意味的精度誤差のアノテートに着目し, GPT-4に基づくアノテータとメトリクスを組み合わせる。
参考スコア（独自算出の注目度）: 2.9206268153110084
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We investigate to which extent open large language models (LLMs) can generate coherent and relevant text from structured data. To prevent bias from benchmarks leaked into LLM training data, we collect Quintd-1: an ad-hoc benchmark for five data-to-text (D2T) generation tasks, consisting of structured data records in standard formats gathered from public APIs. We leverage reference-free evaluation metrics and LLMs' in-context learning capabilities, allowing us to test the models with no human-written references. Our evaluation focuses on annotating semantic accuracy errors on token-level, combining human annotators and a metric based on GPT-4. Our systematic examination of the models' behavior across domains and tasks suggests that state-of-the-art open LLMs with 7B parameters can generate fluent and coherent text from various standard data formats in zero-shot settings. However, we also show that semantic accuracy of the outputs remains a major issue: on our benchmark, 80% of outputs of open LLMs contain a semantic error according to human annotators (91% according to GPT-4). Our code, data, and model outputs are available at https://d2t-llm.github.io.
Abstract（参考訳）: オープン大言語モデル(LLM)が構造化データから一貫性のある関連テキストをどの程度生成できるかを検討する。 llmトレーニングデータにリークされたベンチマークのバイアスを防止するために、公開apiから収集した標準フォーマットの構造化データレコードで構成される、5つのデータツーテキスト生成タスクのためのアドホックなベンチマークであるquintd-1を収集した。参照フリーの評価メトリクスとllmsのコンテキスト内学習機能を活用し、人間が書いた参照なしでモデルをテストできます。本評価では, トークンレベルの意味的精度誤差のアノテートに着目し, GPT-4に基づくアノテータとメトリクスを組み合わせる。ドメインとタスク間でのモデルの振る舞いを体系的に検討した結果、7bパラメータを持つ最先端のオープンllmは、ゼロショット設定で様々な標準データフォーマットから、流れる、一貫性のあるテキストを生成することができることが示唆された。しかし,出力のセマンティックな精度は依然として大きな問題であり,我々のベンチマークではオープン LLM の出力の80%が人間のアノテータによるセマンティックエラーを含む(GPT-4 では 91%)。私たちのコード、データ、モデルの出力は、https://d2t-llm.github.ioで利用可能です。

関連論文リスト

GPT-4.1 Sets the Standard in Automated Experiment Design Using Novel Python Libraries [0.7905066238005297]
大規模言語モデル(LLM)は、科学研究におけるコード生成を自動化するツールとして急速に進歩してきた。本研究では,2つの難易度の高いシナリオに対して,関数型Pythonコードを生成する上で,最先端のLLMの選択を体系的にベンチマークする。
論文参考訳（メタデータ） (2025-07-30T13:11:29Z)
Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [28.47810405584841]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。 AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文参考訳（メタデータ） (2025-07-22T06:37:51Z)
An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。本研究は,LLMのM2MS能力に関する系統的研究である。
論文参考訳（メタデータ） (2025-05-19T11:18:54Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
Redefining Simplicity: Benchmarking Large Language Models from Lexical to Document Simplification [21.727596753351072]
テキスト単純化(英: Text simplification, TS)とは、テキストの複雑さを減らし、本来の意味とキー情報を保持する過程である。既存の研究は、大きな言語モデル(LLM)が、文の単純化に関する非LLMベースの手法よりも優れていることを示しているだけである。
論文参考訳（メタデータ） (2025-02-12T10:38:22Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Text-like Encoding of Collaborative Information in Large Language Models for Recommendation [58.87865271693269]
BinLLMはLarge Language Models for Recommendation (LLMRec)とシームレスに連携する新しい手法である。 BinLLMは、外部モデルからの協調的な埋め込みをバイナリシーケンスに変換する。 BinLLMは、ドット決定記法を用いてバイナリシーケンスを圧縮するオプションを提供し、過度に長い長さを避ける。
論文参考訳（メタデータ） (2024-06-05T12:45:25Z)
CodecLM: Aligning Language Models with Tailored Synthetic Data [51.59223474427153]
命令追従能力のための高品質な合成データを適応的に生成するフレームワークであるCodecLMを紹介する。まず、ターゲットの指示分布をキャプチャするために、オンザフライで生成された簡潔なキーワードであるメタデータにシード命令をエンコードする。また、デコード中に自己論理とコントラストフィルタを導入し、データ効率の良いサンプルを調整する。
論文参考訳（メタデータ） (2024-04-08T21:15:36Z)
TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data [73.29220562541204]
我々は,言語モデル(LLM)の驚くべきパワーを活用して課題を解決することを検討する。 LLaMA2を微調整し,既存のエキスパートアノテートデータセットから自動生成したトレーニングデータを用いてTAT-LLM言語モデルを開発する。
論文参考訳（メタデータ） (2024-01-24T04:28:50Z)
BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。 GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文参考訳（メタデータ） (2023-10-01T20:46:44Z)
Struc-Bench: Are Large Language Models Really Good at Generating Complex Structured Data? [49.688233418425995]
Struc-Benchは、大きな言語モデル(LLM)を特徴とする包括的なベンチマークである。 Pスコア(Prompting Score)とHスコア(Heuristical Score)の2つの革新的な指標を提案する。実験の結果,LLaMA-7Bに構造認識の微調整を適用すると,性能が大幅に向上することがわかった。
論文参考訳（メタデータ） (2023-09-16T11:31:58Z)
Open-Source LLMs for Text Annotation: A Practical Guide for Model Setting and Fine-Tuning [5.822010906632045]
本稿では、政治科学研究に典型的なテキスト分類タスクにおけるオープンソースのLarge Language Models(LLM)の性能について検討する。姿勢・話題・関連分類などの課題を調べることで,テキスト分析におけるLLMの使用に関する情報的判断を学者に指導することを目指す。
論文参考訳（メタデータ） (2023-07-05T10:15:07Z)
Investigating Table-to-Text Generation Capabilities of LLMs in Real-World Information Seeking Scenarios [32.84523661055774]
タブラルデータは様々な産業で広く使われており、ユーザが情報検索の目的を理解し、操作するのにかなりの時間と労力を要する。テーブル情報探索における大規模言語モデル (LLM) の現実的応用は, いまだに実証されていない。本稿では,2つの実世界情報探索シナリオ内の4つのデータセットを用いて,異なるLLMのテーブル・トゥ・テキスト機能について検討する。
論文参考訳（メタデータ） (2023-05-24T10:22:30Z)
Element-aware Summarization with Large Language Models: Expert-aligned Evaluation and Chain-of-Thought Method [35.181659789684545]
自動要約は、ソースドキュメントのキーアイデアを含む簡潔な要約を生成する。 CNN/DailyMailやBBC XSumからの引用は、主に幻覚と情報冗長性の点で騒々しい。本稿では,LCMを段階的に生成するためにSumCoT(Slide Chain-of-Thought)手法を提案する。実験結果から, ROUGE-L では, 最先端の微調整 PLM とゼロショット LLM を+4.33/+4.77 で上回った。
論文参考訳（メタデータ） (2023-05-22T18:54:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。