論文の概要: Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study
- arxiv url: http://arxiv.org/abs/2304.00723v3
- Date: Mon, 18 Sep 2023 03:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:18:53.725631
- Title: Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study
- Title(参考訳): 参照自由テキスト品質評価における大規模言語モデルの利用に関する実証的研究
- Authors: Yi Chen, Rui Wang, Haiyun Jiang, Shuming Shi, Ruifeng Xu
- Abstract要約: ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
- 参考スコア(独自算出の注目度): 63.27346930921658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the quality of generated text is a challenging task in NLP, due to
the inherent complexity and diversity of text. Recently, large language models
(LLMs) have garnered significant attention due to their impressive performance
in various tasks. Therefore, we present this paper to investigate the
effectiveness of LLMs, especially ChatGPT, and explore ways to optimize their
use in assessing text quality. We compared three kinds of reference-free
evaluation methods. The experimental results prove that ChatGPT is capable of
evaluating text quality effectively from various perspectives without reference
and demonstrates superior performance than most existing automatic metrics. In
particular, the Explicit Score, which utilizes ChatGPT to generate a numeric
score measuring text quality, is the most effective and reliable method among
the three exploited approaches. However, directly comparing the quality of two
texts may lead to suboptimal results. We believe this paper will provide
valuable insights for evaluating text quality with LLMs and have released the
used data.
- Abstract(参考訳): 生成したテキストの品質を評価することは、本質的な複雑さと多様性のため、NLPでは難しい作業である。
近年,大きな言語モデル (LLM) が注目されている。
そこで本研究では,LLM,特にChatGPTの有効性について検討し,テキスト品質評価におけるそれらの利用方法を検討する。
基準フリー評価法を3種類比較した。
実験の結果,ChatGPTは様々な視点からテキスト品質を効果的に評価でき,既存の自動メトリクスよりも優れた性能を示すことがわかった。
特に,ChatGPTを用いてテキスト品質を計測する数値スコアを生成するExplicit Scoreは,この3つの手法の中で最も効果的で信頼性の高い手法である。
しかし、2つのテキストの品質を直接比較すると、最適でない結果につながる可能性がある。
本論文は,LLMを用いてテキスト品質を評価する上で貴重な知見を提供し,使用済みデータを公開した。
関連論文リスト
- Is ChatGPT Involved in Texts? Measure the Polish Ratio to Detect
ChatGPT-Generated Text [74.7781251515535]
我々はHPPT(ChatGPT-polished academic abstracts)と呼ばれる新しいデータセットを紹介する。
純粋なChatGPT生成テキストの代わりに、人書きとChatGPTポリケートされた抽象文のペアを構成することで、既存のコーパスから分岐する。
また,編集距離に基づくテキスト生成におけるChatGPTの関与の革新的な尺度であるPolish Ratioを提案する。
論文 参考訳(メタデータ) (2023-07-21T06:38:37Z) - A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark
Datasets [19.521390684403293]
本稿では,ChatGPTの性能を多種多様な学術データセット上で徹底的に評価する。
具体的には、140タスクにわたるChatGPTを評価し、これらのデータセットで生成される255Kの応答を分析する。
論文 参考訳(メタデータ) (2023-05-29T12:37:21Z) - ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large
Language Models in Multilingual Learning [70.57126720079971]
大規模言語モデル(LLM)は、自然言語処理(NLP)において最も重要なブレークスルーとして登場した。
本稿では,高,中,低,低リソースの37言語を対象として,ChatGPTを7つのタスクで評価する。
従来のモデルと比較すると,様々なNLPタスクや言語に対するChatGPTの性能は低下していた。
論文 参考訳(メタデータ) (2023-04-12T05:08:52Z) - Document-Level Machine Translation with Large Language Models [61.25639313032555]
本稿では,対話モデルにおける大規模言語モデルの能力について,詳細な評価を行う。
Chat-GPT と GPT-4 は、文書レベルの翻訳の新しい、そして有望なパラダイムになる可能性を示している。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - Comparative Analysis of CHATGPT and the evolution of language models [0.0]
本稿では,機械翻訳,機械要約,質問応答,言語生成など,NLPにおける一般的な考え方を紹介する。
大規模言語モデルの安全な大規模導入例として,ChatGPTの議論と結果を検証するための戦略をまとめて提示する。
論文 参考訳(メタデータ) (2023-03-28T03:11:28Z) - ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (2023-03-27T22:30:39Z) - Error Analysis Prompting Enables Human-Like Translation Evaluation in
Large Language Models: A Case Study on ChatGPT [79.95741403174893]
生成型大規模言語モデル(LLM)は、機械翻訳、質問応答、テキスト要約、自然言語理解など、いくつかのNLPタスクにおいて顕著な習熟性を示している。
近年の研究では、ChatGPTを用いて機械翻訳(MT)の性能をシステムレベルで評価しているが、セグメントレベルでは性能が劣っていることが示されている。
以上の結果から, tbftexttError Analysis Prompting と呼ばれる新しいプロンプト手法である ChatGPT のような LLM は, 人間のテキスト生成を可能にすることが示唆された。
論文 参考訳(メタデータ) (2023-03-24T05:05:03Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [53.07514124246407]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。