論文の概要: Perplexity from PLM Is Unreliable for Evaluating Text Quality
- arxiv url: http://arxiv.org/abs/2210.05892v1
- Date: Wed, 12 Oct 2022 03:13:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 12:22:57.442904
- Title: Perplexity from PLM Is Unreliable for Evaluating Text Quality
- Title(参考訳): PLMの難易度はテキスト品質評価に不適である
- Authors: Yequan Wang, Jiawen Deng, Aixin Sun, Xuying Meng
- Abstract要約: パープレキシティ・レフェリーは不適格であり、生成したテキストを公平に評価することはできない。
実験の結果,PPLはテキストの品質を評価するには信頼性が低いことがわかった。
- 参考スコア(独自算出の注目度): 21.92667915964175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, amounts of works utilize perplexity~(PPL) to evaluate the quality
of the generated text. They suppose that if the value of PPL is smaller, the
quality(i.e. fluency) of the text to be evaluated is better. However, we find
that the PPL referee is unqualified and it cannot evaluate the generated text
fairly for the following reasons: (i) The PPL of short text is larger than long
text, which goes against common sense, (ii) The repeated text span could damage
the performance of PPL, and (iii) The punctuation marks could affect the
performance of PPL heavily. Experiments show that the PPL is unreliable for
evaluating the quality of given text. Last, we discuss the key problems with
evaluating text quality using language models.
- Abstract(参考訳): 近年,テキストの品質評価にパープレキシティ~(PPL)を利用する作品が増えている。
彼らは、PPLの値が小さい場合、評価すべきテキストの品質(すなわち、流布率)が良いと仮定する。
しかし、PPLレフェリーは不適格であり、以下の理由で生成されたテキストを公平に評価することはできない。
(i)短文のPPLは長文よりも大きく、常識に反する。
(ii)反復テキストスパンはpplの性能を損なう可能性があり、
(iii)句読点がpplの性能に大きく影響する可能性がある。
実験の結果,PPLはテキストの品質を評価するには信頼性が低いことがわかった。
最後に,言語モデルを用いたテキスト品質評価の課題について論じる。
関連論文リスト
- Vulnerability of LLMs to Vertically Aligned Text Manipulations [108.6908427615402]
大規模言語モデル(LLM)は、テキスト分類タスクの実行に非常に効果的である。
エンコーダベースのモデルのために単語を垂直に整列させるような入力形式を変更することは、テキスト分類タスクにおいてかなり精度を低下させる。
デコーダベースのLLMは、垂直フォーマットのテキスト入力と同じような脆弱性を示すか?
論文 参考訳(メタデータ) (2024-10-26T00:16:08Z) - Check-Eval: A Checklist-based Approach for Evaluating Text Quality [3.031375888004876]
textscCheck-Evalは、参照なしと参照依存の両方の評価方法として使用できる。
textscCheck-Evalは、既存のメトリクスと比較して、人間の判断と高い相関性を達成する。
論文 参考訳(メタデータ) (2024-07-19T17:14:16Z) - Can Perplexity Reflect Large Language Model's Ability in Long Text Understanding? [32.414056028346465]
多くの研究で、LLM(Large Language Models)は極めて長いテキストを処理する可能性があることが示されている。
本研究では, PPL と LLM の長文理解能力には相関関係がないことを明らかにした。
論文 参考訳(メタデータ) (2024-05-09T21:15:49Z) - Don't throw away your value model! Generating more preferable text with Value-Guided Monte-Carlo Tree Search decoding [104.77043794433777]
PPO(Proximal Policy Optimization)に基づいて自然言語テキストを生成する場合、推論時探索アルゴリズムは不要に思えるかもしれない
本稿では,モンテカルロ木探索 (MCTS) を統合することで,PPOから余分な距離を得ることが可能であることを実証する。
提案するPPO-MCTSは,PPOから値ネットワークを統合することで,推論時生成時のポリシネットワークと密接に連携する。
論文 参考訳(メタデータ) (2023-09-26T15:57:57Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z) - ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。
一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。
しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文 参考訳(メタデータ) (2023-03-27T22:30:39Z) - NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level
Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。
具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。
LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文 参考訳(メタデータ) (2022-05-09T16:57:35Z) - Mirostat: A Neural Text Decoding Algorithm that Directly Controls
Perplexity [22.15683400807154]
我々は、トップk、トップp、温度サンプリングにおけるパープレキシティの理論解析を用いて、フィードバックに基づく適応的なトップkテキスト復号アルゴリズムであるミロスタットを設計する。
実験により、トップkおよびトップpサンプリングにおけるkとpの低い値に対して、パープレキシティは生成したテキストの長さとともに著しく低下することが示された。
k と p の大きな値の場合、テキスト長の生成とともにパープレキシティが増加し、テキストの不整合と相関する。
論文 参考訳(メタデータ) (2020-07-29T17:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。