論文の概要: Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: A Preliminary Empirical Study
- arxiv url: http://arxiv.org/abs/2304.00723v2
- Date: Mon, 10 Apr 2023 12:46:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 19:56:19.141507
- Title: Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: A Preliminary Empirical Study
- Title(参考訳): 参照自由テキスト品質評価における大規模言語モデルの利用を探る:予備的実証的研究
- Authors: Yi Chen, Rui Wang, Haiyun Jiang, Shuming Shi, Ruifeng Xu
- Abstract要約: OpenAIの強力な大規模言語モデル(LLM)であるChatGPTは、様々なタスクにおける優れたパフォーマンスのために大きな注目を集めている。
本稿では,ChatGPT や類似 LLM に基づく3種類の基準自由度評価手法を比較した。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
- 参考スコア(独自算出の注目度): 40.04027551314316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the quality of generated text is a challenging task in natural
language processing. This difficulty arises from the inherent complexity and
diversity of text. Recently, OpenAI's ChatGPT, a powerful large language model
(LLM), has garnered significant attention due to its impressive performance in
various tasks. Therefore, we present this report to investigate the
effectiveness of LLMs, especially ChatGPT, and explore ways to optimize their
use in assessing text quality. We compared three kinds of reference-free
evaluation methods based on ChatGPT or similar LLMs. The experimental results
prove that ChatGPT is capable to evaluate text quality effectively from various
perspectives without reference and demonstrates superior performance than most
existing automatic metrics. In particular, the Explicit Score, which utilizes
ChatGPT to generate a numeric score measuring text quality, is the most
effective and reliable method among the three exploited approaches. However,
directly comparing the quality of two texts using ChatGPT may lead to
suboptimal results. We hope this report will provide valuable insights into
selecting appropriate methods for evaluating text quality with LLMs such as
ChatGPT.
- Abstract(参考訳): 自然言語処理において,生成テキストの品質評価は難しい課題である。
この困難は本文の複雑さと多様性から生じる。
最近では,openaiの大規模言語モデル(llm)であるchatgptが,さまざまなタスクのパフォーマンス向上によって注目を浴びている。
そこで本報告では,LLM,特にChatGPTの有効性について検討し,テキスト品質評価におけるそれらの使用方法を検討する。
chatgptまたは類似のllmに基づく3種類の参照フリー評価手法を比較した。
実験の結果,ChatGPTは様々な視点からテキスト品質を効果的に評価でき,既存の自動メトリクスよりも優れた性能を示すことがわかった。
特に,ChatGPTを用いてテキスト品質を計測する数値スコアを生成するExplicit Scoreは,この3つの手法の中で最も効果的で信頼性の高い手法である。
しかし、ChatGPTを用いて2つのテキストの品質を直接比較することは、最適以下の結果をもたらす可能性がある。
本稿では,ChatGPT などの LLM を用いたテキスト品質評価手法の選択について,貴重な知見を提供する。
関連論文リスト
- Navigating the Path of Writing: Outline-guided Text Generation with Large Language Models [8.920436030483872]
本稿では,Large Language Models (LLMs) をユーザ整列テキスト生成のガイドとして,明示的なアウトラインを用いたLinging Pathを提案する。
我々のアプローチは、構造化された記述計画と推論パスからインスピレーションを得て、書き込みプロセス全体を通してユーザの意図を捉え、反映することに重点を置いています。
論文 参考訳(メタデータ) (2024-04-22T06:57:43Z) - Exploring Precision and Recall to assess the quality and diversity of
LLMs [86.33540332994781]
本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - QuRating: Selecting High-Quality Data for Training Language Models [69.55617417985809]
本稿では,人間が直感的に知覚するテキストの抽象的品質をキャプチャする事前学習データを選択するQuRatingを紹介する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学ぶためにQuRaterモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (2023-03-27T22:30:39Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - TextGAIL: Generative Adversarial Imitation Learning for Text Generation [68.3579946817937]
本稿では,大規模な事前学習言語モデルを用いて,より信頼性の高い報酬ガイダンスを提供するテキスト生成のための生成逆模倣学習フレームワークを提案する。
提案手法では, テキスト生成性能の安定化と向上のために, コントラスト判別器とPPOを用いた。
論文 参考訳(メタデータ) (2020-04-07T00:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。