論文の概要: Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study
- arxiv url: http://arxiv.org/abs/2304.00723v3
- Date: Mon, 18 Sep 2023 03:52:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:18:53.725631
- Title: Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study
- Title(参考訳): 参照自由テキスト品質評価における大規模言語モデルの利用に関する実証的研究
- Authors: Yi Chen, Rui Wang, Haiyun Jiang, Shuming Shi, Ruifeng Xu
- Abstract要約: ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
- 参考スコア(独自算出の注目度): 63.27346930921658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the quality of generated text is a challenging task in NLP, due to
the inherent complexity and diversity of text. Recently, large language models
(LLMs) have garnered significant attention due to their impressive performance
in various tasks. Therefore, we present this paper to investigate the
effectiveness of LLMs, especially ChatGPT, and explore ways to optimize their
use in assessing text quality. We compared three kinds of reference-free
evaluation methods. The experimental results prove that ChatGPT is capable of
evaluating text quality effectively from various perspectives without reference
and demonstrates superior performance than most existing automatic metrics. In
particular, the Explicit Score, which utilizes ChatGPT to generate a numeric
score measuring text quality, is the most effective and reliable method among
the three exploited approaches. However, directly comparing the quality of two
texts may lead to suboptimal results. We believe this paper will provide
valuable insights for evaluating text quality with LLMs and have released the
used data.
- Abstract(参考訳): 生成したテキストの品質を評価することは、本質的な複雑さと多様性のため、NLPでは難しい作業である。
近年,大きな言語モデル (LLM) が注目されている。
そこで本研究では,LLM,特にChatGPTの有効性について検討し,テキスト品質評価におけるそれらの利用方法を検討する。
基準フリー評価法を3種類比較した。
実験の結果,ChatGPTは様々な視点からテキスト品質を効果的に評価でき,既存の自動メトリクスよりも優れた性能を示すことがわかった。
特に,ChatGPTを用いてテキスト品質を計測する数値スコアを生成するExplicit Scoreは,この3つの手法の中で最も効果的で信頼性の高い手法である。
しかし、2つのテキストの品質を直接比較すると、最適でない結果につながる可能性がある。
本論文は,LLMを用いてテキスト品質を評価する上で貴重な知見を提供し,使用済みデータを公開した。
関連論文リスト
- Multi-Facet Counterfactual Learning for Content Quality Evaluation [48.73583736357489]
コンテンツ品質評価の複数の側面を知覚する評価器を効率的に構築する枠組みを提案する。
我々は,コントラスト学習と教師付き学習に基づく共同学習戦略を活用し,評価者が異なる品質面を区別できるようにする。
論文 参考訳(メタデータ) (2024-10-10T08:04:10Z) - Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。
最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文 参考訳(メタデータ) (2024-08-13T09:19:21Z) - Check-Eval: A Checklist-based Approach for Evaluating Text Quality [3.031375888004876]
textscCheck-Evalは、参照なしと参照依存の両方の評価方法として使用できる。
textscCheck-Evalは、既存のメトリクスと比較して、人間の判断と高い相関性を達成する。
論文 参考訳(メタデータ) (2024-07-19T17:14:16Z) - A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文 参考訳(メタデータ) (2024-06-30T16:12:37Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (2023-03-27T22:30:39Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - TextGAIL: Generative Adversarial Imitation Learning for Text Generation [68.3579946817937]
本稿では,大規模な事前学習言語モデルを用いて,より信頼性の高い報酬ガイダンスを提供するテキスト生成のための生成逆模倣学習フレームワークを提案する。
提案手法では, テキスト生成性能の安定化と向上のために, コントラスト判別器とPPOを用いた。
論文 参考訳(メタデータ) (2020-04-07T00:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。