論文の概要: Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study
- arxiv url: http://arxiv.org/abs/2304.00723v3
- Date: Mon, 18 Sep 2023 03:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:18:53.725631
- Title: Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study
- Title(参考訳): 参照自由テキスト品質評価における大規模言語モデルの利用に関する実証的研究
- Authors: Yi Chen, Rui Wang, Haiyun Jiang, Shuming Shi, Ruifeng Xu
- Abstract要約: ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
- 参考スコア(独自算出の注目度): 63.27346930921658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the quality of generated text is a challenging task in NLP, due to
the inherent complexity and diversity of text. Recently, large language models
(LLMs) have garnered significant attention due to their impressive performance
in various tasks. Therefore, we present this paper to investigate the
effectiveness of LLMs, especially ChatGPT, and explore ways to optimize their
use in assessing text quality. We compared three kinds of reference-free
evaluation methods. The experimental results prove that ChatGPT is capable of
evaluating text quality effectively from various perspectives without reference
and demonstrates superior performance than most existing automatic metrics. In
particular, the Explicit Score, which utilizes ChatGPT to generate a numeric
score measuring text quality, is the most effective and reliable method among
the three exploited approaches. However, directly comparing the quality of two
texts may lead to suboptimal results. We believe this paper will provide
valuable insights for evaluating text quality with LLMs and have released the
used data.
- Abstract(参考訳): 生成したテキストの品質を評価することは、本質的な複雑さと多様性のため、NLPでは難しい作業である。
近年,大きな言語モデル (LLM) が注目されている。
そこで本研究では,LLM,特にChatGPTの有効性について検討し,テキスト品質評価におけるそれらの利用方法を検討する。
基準フリー評価法を3種類比較した。
実験の結果,ChatGPTは様々な視点からテキスト品質を効果的に評価でき,既存の自動メトリクスよりも優れた性能を示すことがわかった。
特に,ChatGPTを用いてテキスト品質を計測する数値スコアを生成するExplicit Scoreは,この3つの手法の中で最も効果的で信頼性の高い手法である。
しかし、2つのテキストの品質を直接比較すると、最適でない結果につながる可能性がある。
本論文は,LLMを用いてテキスト品質を評価する上で貴重な知見を提供し,使用済みデータを公開した。
関連論文リスト
- Exploring Precision and Recall to assess the quality and diversity of
LLMs [86.33540332994781]
本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - QuRating: Selecting High-Quality Data for Training Language Models [69.55617417985809]
本稿では,人間が直感的に知覚するテキストの抽象的品質をキャプチャする事前学習データを選択するQuRatingを紹介する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学ぶためにQuRaterモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (2023-03-27T22:30:39Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - GRUEN for Evaluating Linguistic Quality of Generated Text [17.234442722611803]
本稿では、文法性、非冗長性、focU、生成したテキストの構造とコヒーレンスを評価するためのGRUENを提案する。
GRUENはBERTベースのモデルと構文的、意味的、文脈的特徴のクラスを使用してシステム出力を調べる。
論文 参考訳(メタデータ) (2020-10-06T05:59:25Z) - TextGAIL: Generative Adversarial Imitation Learning for Text Generation [68.3579946817937]
本稿では,大規模な事前学習言語モデルを用いて,より信頼性の高い報酬ガイダンスを提供するテキスト生成のための生成逆模倣学習フレームワークを提案する。
提案手法では, テキスト生成性能の安定化と向上のために, コントラスト判別器とPPOを用いた。
論文 参考訳(メタデータ) (2020-04-07T00:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。