論文の概要: Perplexity from PLM Is Unreliable for Evaluating Text Quality
- arxiv url: http://arxiv.org/abs/2210.05892v1
- Date: Wed, 12 Oct 2022 03:13:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:22:57.442904
- Title: Perplexity from PLM Is Unreliable for Evaluating Text Quality
- Title(参考訳): PLMの難易度はテキスト品質評価に不適である
- Authors: Yequan Wang, Jiawen Deng, Aixin Sun, Xuying Meng
- Abstract要約: パープレキシティ・レフェリーは不適格であり、生成したテキストを公平に評価することはできない。
実験の結果,PPLはテキストの品質を評価するには信頼性が低いことがわかった。
- 参考スコア(独自算出の注目度): 21.92667915964175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, amounts of works utilize perplexity~(PPL) to evaluate the quality
of the generated text. They suppose that if the value of PPL is smaller, the
quality(i.e. fluency) of the text to be evaluated is better. However, we find
that the PPL referee is unqualified and it cannot evaluate the generated text
fairly for the following reasons: (i) The PPL of short text is larger than long
text, which goes against common sense, (ii) The repeated text span could damage
the performance of PPL, and (iii) The punctuation marks could affect the
performance of PPL heavily. Experiments show that the PPL is unreliable for
evaluating the quality of given text. Last, we discuss the key problems with
evaluating text quality using language models.
- Abstract(参考訳): 近年,テキストの品質評価にパープレキシティ~(PPL)を利用する作品が増えている。
彼らは、PPLの値が小さい場合、評価すべきテキストの品質(すなわち、流布率)が良いと仮定する。
しかし、PPLレフェリーは不適格であり、以下の理由で生成されたテキストを公平に評価することはできない。
(i)短文のPPLは長文よりも大きく、常識に反する。
(ii)反復テキストスパンはpplの性能を損なう可能性があり、
(iii)句読点がpplの性能に大きく影響する可能性がある。
実験の結果,PPLはテキストの品質を評価するには信頼性が低いことがわかった。
最後に,言語モデルを用いたテキスト品質評価の課題について論じる。
関連論文リスト
- MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (2023-03-27T22:30:39Z) - For Generated Text, Is NLI-Neutral Text the Best Text? [14.848007760540556]
GPT-JのためのNLIインフォームド生成法を開発した。
我々は,核サンプリングランダム性パラメータ値が高い場合に,エンテーメントの最大化のためのNLI戦略がテキスト生成を改善することを発見した。
論文 参考訳(メタデータ) (2023-02-16T20:46:36Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - Natural Language Inference in Context -- Investigating Contextual
Reasoning over Long Texts [19.894104911338353]
ConTRoLは、Longテキスト上のConTextual Reasoningのための新しいデータセットである。
8,325人の専門家が設計した"context-hypothesis"ペアとゴールドラベルで構成されている。
これは、警察の徴兵のための競争的選択と採用試験(言語推論テスト)から派生し、専門家レベルの品質を持つ。
論文 参考訳(メタデータ) (2020-11-10T02:31:31Z) - Mirostat: A Neural Text Decoding Algorithm that Directly Controls
Perplexity [22.15683400807154]
我々は、トップk、トップp、温度サンプリングにおけるパープレキシティの理論解析を用いて、フィードバックに基づく適応的なトップkテキスト復号アルゴリズムであるミロスタットを設計する。
実験により、トップkおよびトップpサンプリングにおけるkとpの低い値に対して、パープレキシティは生成したテキストの長さとともに著しく低下することが示された。
k と p の大きな値の場合、テキスト長の生成とともにパープレキシティが増加し、テキストの不整合と相関する。
論文 参考訳(メタデータ) (2020-07-29T17:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。