Fugu-MT 論文翻訳(概要): Exploring the Use of Large Language Models for Reference-Free Text Quality Evaluation: A Preliminary Empirical Study

論文の概要: Exploring the Use of Large Language Models for Reference-Free Text Quality Evaluation: A Preliminary Empirical Study

arxiv url: http://arxiv.org/abs/2304.00723v1
Date: Mon, 3 Apr 2023 05:29:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-04 16:34:44.836191
Title: Exploring the Use of Large Language Models for Reference-Free Text Quality Evaluation: A Preliminary Empirical Study
Title（参考訳）: 参照自由テキスト品質評価における大規模言語モデルの利用を探る:予備的実証的研究
Authors: Yi Chen, Rui Wang, Haiyun Jiang, Shuming Shi, Ruifeng Xu
Abstract要約: OpenAIの強力な大規模言語モデル(LLM)であるChatGPTは、様々なタスクにおける優れたパフォーマンスのために大きな注目を集めている。本稿では,ChatGPT や類似 LLM に基づく3種類の基準自由度評価手法を比較した。 ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
参考スコア（独自算出の注目度）: 40.04027551314316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Evaluating the quality of generated text is a challenging task in natural language processing. This difficulty arises from the inherent complexity and diversity of text. Recently, OpenAI's ChatGPT, a powerful large language model (LLM), has garnered significant attention due to its impressive performance in various tasks. Therefore, we present this report to investigate the effectiveness of LLMs, especially ChatGPT, and explore ways to optimize their use in assessing text quality. We compared three kinds of reference-free evaluation methods based on ChatGPT or similar LLMs. The experimental results prove that ChatGPT is capable to evaluate text quality effectively from various perspectives without reference and demonstrates superior performance than most existing automatic metrics. In particular, the Explicit Score, which utilizes ChatGPT to generate a numeric score measuring text quality, is the most effective and reliable method among the three exploited approaches. However, directly comparing the quality of two texts using ChatGPT may lead to suboptimal results. We hope this report will provide valuable insights into selecting appropriate methods for evaluating text quality with LLMs such as ChatGPT.
Abstract（参考訳）: 自然言語処理において,生成テキストの品質評価は難しい課題である。この困難は本文の複雑さと多様性から生じる。最近では,openaiの大規模言語モデル(llm)であるchatgptが,さまざまなタスクのパフォーマンス向上によって注目を浴びている。そこで本報告では,LLM,特にChatGPTの有効性について検討し,テキスト品質評価におけるそれらの使用方法を検討する。 chatgptまたは類似のllmに基づく3種類の参照フリー評価手法を比較した。実験の結果,ChatGPTは様々な視点からテキスト品質を効果的に評価でき,既存の自動メトリクスよりも優れた性能を示すことがわかった。特に,ChatGPTを用いてテキスト品質を計測する数値スコアを生成するExplicit Scoreは,この3つの手法の中で最も効果的で信頼性の高い手法である。しかし、ChatGPTを用いて2つのテキストの品質を直接比較することは、最適以下の結果をもたらす可能性がある。本稿では,ChatGPT などの LLM を用いたテキスト品質評価手法の選択について,貴重な知見を提供する。

関連論文リスト

Comparative Evaluation of ChatGPT and DeepSeek Across Key NLP Tasks: Strengths, Weaknesses, and Domain-Specific Performance [0.0]
本研究の目的は,5つの主要なNLPタスクにおけるChatGPTとDeepSeekを評価することである。これらのタスクには、感情分析、トピック分類、テキスト要約、機械翻訳、テキスト翻訳が含まれる。その結果、DeepSeekは分類安定性と論理的推論に優れており、ChatGPTは微妙な理解と柔軟性を必要とするタスクにおいてより優れた性能を発揮することがわかった。
論文参考訳（メタデータ） (2025-06-23T10:52:54Z)
Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach [32.654673913638426]
本稿では,創造性を製品として評価するTorance Test of Creative Writing (TTCW)に基づく自動評価手法を提案する。提案手法は、高品質な参照テキストに対して生成されたクリエイティブテキストをスコアリングする参照ベースのLikertスタイルのアプローチを用いる。
論文参考訳（メタデータ） (2025-04-22T10:52:23Z)
Multi-Facet Counterfactual Learning for Content Quality Evaluation [48.73583736357489]
コンテンツ品質評価の複数の側面を知覚する評価器を効率的に構築する枠組みを提案する。我々は,コントラスト学習と教師付き学習に基づく共同学習戦略を活用し,評価者が異なる品質面を区別できるようにする。
論文参考訳（メタデータ） (2024-10-10T08:04:10Z)
Evaluating Research Quality with Large Language Models: An Analysis of ChatGPT's Effectiveness with Different Settings and Inputs [3.9627148816681284]
本稿では、どのChatGPT入力がより良い品質スコア推定をもたらすかを評価する。最適な入力は記事のタイトルと抽象であり、平均的なChatGPTスコアは人間のスコアと0.67と相関している。
論文参考訳（メタデータ） (2024-08-13T09:19:21Z)
Check-Eval: A Checklist-based Approach for Evaluating Text Quality [3.031375888004876]
textscCheck-Evalは、参照なしと参照依存の両方の評価方法として使用できる。 textscCheck-Evalは、既存のメトリクスと比較して、人間の判断と高い相関性を達成する。
論文参考訳（メタデータ） (2024-07-19T17:14:16Z)
A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文参考訳（メタデータ） (2024-06-30T16:12:37Z)
Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文参考訳（メタデータ） (2024-02-16T13:53:26Z)
CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。 CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文参考訳（メタデータ） (2023-11-30T16:52:42Z)
ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文参考訳（メタデータ） (2023-03-27T22:30:39Z)
Large Language Models are Diverse Role-Players for Summarization Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。 BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-27T10:40:59Z)
TextGAIL: Generative Adversarial Imitation Learning for Text Generation [68.3579946817937]
本稿では,大規模な事前学習言語モデルを用いて,より信頼性の高い報酬ガイダンスを提供するテキスト生成のための生成逆模倣学習フレームワークを提案する。提案手法では, テキスト生成性能の安定化と向上のために, コントラスト判別器とPPOを用いた。
論文参考訳（メタデータ） (2020-04-07T00:24:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。