Fugu-MT 論文翻訳(概要): Perplexity from PLM Is Unreliable for Evaluating Text Quality

論文の概要: Perplexity from PLM Is Unreliable for Evaluating Text Quality

arxiv url: http://arxiv.org/abs/2210.05892v1
Date: Wed, 12 Oct 2022 03:13:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 12:22:57.442904
Title: Perplexity from PLM Is Unreliable for Evaluating Text Quality
Title（参考訳）: PLMの難易度はテキスト品質評価に不適である
Authors: Yequan Wang, Jiawen Deng, Aixin Sun, Xuying Meng
Abstract要約: パープレキシティ・レフェリーは不適格であり、生成したテキストを公平に評価することはできない。実験の結果,PPLはテキストの品質を評価するには信頼性が低いことがわかった。
参考スコア（独自算出の注目度）: 21.92667915964175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, amounts of works utilize perplexity~(PPL) to evaluate the quality of the generated text. They suppose that if the value of PPL is smaller, the quality(i.e. fluency) of the text to be evaluated is better. However, we find that the PPL referee is unqualified and it cannot evaluate the generated text fairly for the following reasons: (i) The PPL of short text is larger than long text, which goes against common sense, (ii) The repeated text span could damage the performance of PPL, and (iii) The punctuation marks could affect the performance of PPL heavily. Experiments show that the PPL is unreliable for evaluating the quality of given text. Last, we discuss the key problems with evaluating text quality using language models.
Abstract（参考訳）: 近年,テキストの品質評価にパープレキシティ~(PPL)を利用する作品が増えている。彼らは、PPLの値が小さい場合、評価すべきテキストの品質(すなわち、流布率)が良いと仮定する。しかし、PPLレフェリーは不適格であり、以下の理由で生成されたテキストを公平に評価することはできない。 (i)短文のPPLは長文よりも大きく、常識に反する。 (ii)反復テキストスパンはpplの性能を損なう可能性があり、 (iii)句読点がpplの性能に大きく影響する可能性がある。実験の結果,PPLはテキストの品質を評価するには信頼性が低いことがわかった。最後に,言語モデルを用いたテキスト品質評価の課題について論じる。

関連論文リスト

Same evaluation, more tokens: On the effect of input length for machine translation evaluation using Large Language Models [6.525298236457623]
大規模言語モデル(LLM)は、MQMエラースパンアノテーションを介して、信頼性が高く解釈可能な文レベルの翻訳評価器として機能する。評価はテキスト長に不変であることを示し、入力の粒度に関わらず一貫した誤差スパンを生成する。我々は、粒度整合プロンプト、FSP(Focus Sentence Prompting)、LCMと評価タスクの整合性を改善するための微調整アプローチなど、いくつかの戦略を評価する。
論文参考訳（メタデータ） (2025-05-03T09:30:26Z)
Evaluation Under Imperfect Benchmarks and Ratings: A Case Study in Text Simplification [13.381644813030725]
様々なサイズのモデルによって生成される単純化された文を特徴付けるテキスト単純化のための合成ベンチマークを提案する。評価の結果,評価基準はアノテータ間の高い一致を示し,予想される傾向を反映していることがわかった。第2に, LLM審査員(LLMs-as-a-jury)による自動評価は, テキスト簡易化評価において一貫した評価を得るのに十分であることを示す。
論文参考訳（メタデータ） (2025-04-13T01:36:47Z)
Understanding the Effects of RLHF on the Quality and Detectability of LLM-Generated Texts [7.242609314791262]
人間のフィードバックからの強化学習によるさらなる編集が、生成したテキストの品質に与える影響について検討する。 RLHFはより検出しやすく、長く、繰り返し出力する。訓練ベースの検出器は短いテキストやコードを含むテキストに弱いが、ゼロショット検出器はより堅牢である。
論文参考訳（メタデータ） (2025-03-23T07:03:10Z)
Vulnerability of LLMs to Vertically Aligned Text Manipulations [108.6908427615402]
大規模言語モデル(LLM)は、テキスト分類タスクの実行に非常に効果的である。エンコーダベースのモデルのために単語を垂直に整列させるような入力形式を変更することは、テキスト分類タスクにおいてかなり精度を低下させる。デコーダベースのLLMは、垂直フォーマットのテキスト入力と同じような脆弱性を示すか?
論文参考訳（メタデータ） (2024-10-26T00:16:08Z)
Check-Eval: A Checklist-based Approach for Evaluating Text Quality [3.031375888004876]
textscCheck-Evalは、参照なしと参照依存の両方の評価方法として使用できる。 textscCheck-Evalは、既存のメトリクスと比較して、人間の判断と高い相関性を達成する。
論文参考訳（メタデータ） (2024-07-19T17:14:16Z)
Can Perplexity Reflect Large Language Model's Ability in Long Text Understanding? [32.414056028346465]
多くの研究で、LLM(Large Language Models)は極めて長いテキストを処理する可能性があることが示されている。本研究では, PPL と LLM の長文理解能力には相関関係がないことを明らかにした。
論文参考訳（メタデータ） (2024-05-09T21:15:49Z)
Don't throw away your value model! Generating more preferable text with Value-Guided Monte-Carlo Tree Search decoding [104.77043794433777]
PPO(Proximal Policy Optimization)に基づいて自然言語テキストを生成する場合、推論時探索アルゴリズムは不要に思えるかもしれない本稿では,モンテカルロ木探索 (MCTS) を統合することで,PPOから余分な距離を得ることが可能であることを実証する。提案するPPO-MCTSは,PPOから値ネットワークを統合することで,推論時生成時のポリシネットワークと密接に連携する。
論文参考訳（メタデータ） (2023-09-26T15:57:57Z)
MISMATCH: Fine-grained Evaluation of Machine-generated Text with Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。 7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文参考訳（メタデータ） (2023-06-18T01:38:53Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
Exploring the Use of Large Language Models for Reference-Free Text Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。 ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文参考訳（メタデータ） (2023-04-03T05:29:58Z)
ChatGPT as a Factual Inconsistency Evaluator for Text Summarization [17.166794984161964]
ゼロショット設定下において,ChatGPTは事実整合性を評価することができることを示す。一般的に、二項関係推論、要約ランク付け、一貫性評価に関する以前の評価指標よりも優れています。しかし、ChatGPTの出力を綿密に検査すると、より語彙的に類似した候補を好むこと、誤った推論、指示の不十分な理解など、一定の制限が示される。
論文参考訳（メタデータ） (2023-03-27T22:30:39Z)
NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality [123.97136358092585]
我々は、ベンチマークデータセット上で人間レベルの品質を実現するNaturalSpeechと呼ばれるTSシステムを開発した。具体的には、波形生成のための変分オートエンコーダ(VAE)を利用する。 LJSpeechデータセットを用いた実験により,提案したNaturalSpeechは文レベルでの人間の記録に対して-0.01CMOSを達成した。
論文参考訳（メタデータ） (2022-05-09T16:57:35Z)
Mirostat: A Neural Text Decoding Algorithm that Directly Controls Perplexity [22.15683400807154]
我々は、トップk、トップp、温度サンプリングにおけるパープレキシティの理論解析を用いて、フィードバックに基づく適応的なトップkテキスト復号アルゴリズムであるミロスタットを設計する。実験により、トップkおよびトップpサンプリングにおけるkとpの低い値に対して、パープレキシティは生成したテキストの長さとともに著しく低下することが示された。 k と p の大きな値の場合、テキスト長の生成とともにパープレキシティが増加し、テキストの不整合と相関する。
論文参考訳（メタデータ） (2020-07-29T17:22:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。