論文の概要: Cluster-based Evaluation of Automatically Generated Text
- arxiv url: http://arxiv.org/abs/2205.16001v2
- Date: Wed, 1 Jun 2022 06:54:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 11:56:18.728346
- Title: Cluster-based Evaluation of Automatically Generated Text
- Title(参考訳): 自動生成テキストのクラスタベース評価
- Authors: Tiago Pimentel, Clara Meister, Ryan Cotterell
- Abstract要約: 言語生成の分野では、優れた計量は人間の判断と高く相関しなければならない。
まず、文字列上の確率分布を演算する自動評価指標を用いることで、計算的および定性的な問題について議論する。
次に,テキストの埋め込みに基づいて文字列をクラスタ化するクラスタ上での分散の利用を提案する。
- 参考スコア(独自算出の注目度): 86.19634542434711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While probabilistic language generators have improved dramatically over the
last few years, the automatic evaluation metrics used to assess them have not
kept pace with this progress. In the domain of language generation, a good
metric must correlate highly with human judgements. Yet, with few exceptions,
there is a lack of such metrics in the literature. In this work, we analyse the
general paradigm of language generator evaluation. We first discuss the
computational and qualitative issues with using automatic evaluation metrics
that operate on probability distributions over strings, the backbone of most
language generators. We then propose the use of distributions over clusters
instead, where we cluster strings based on their text embeddings (obtained from
a pretrained language model). While we find the biases introduced by this
substitution to be quite strong, we observe that, empirically, this methodology
leads to metric estimators with higher correlation with human judgements, while
simultaneously reducing estimator variance. We finish the paper with a probing
analysis, which leads us to conclude that -- by encoding syntactic- and
coherence-level features of text, while ignoring surface-level features --
these clusters may simply be better equipped to evaluate state-of-the-art
language models.
- Abstract(参考訳): 確率的言語生成器はここ数年で劇的に改善されているが、それらの評価に用いられる自動評価指標は、この進歩に追随していない。
言語生成の分野では、優れた計量は人間の判断と高く相関しなければならない。
しかし、例外は少ないが、文献にはそのような指標が欠如している。
本研究では,言語生成評価の一般的なパラダイムを分析する。
まず,ほとんどの言語生成器のバックボーンである文字列上の確率分布を操作する自動評価メトリクスを用いて,計算と定性の問題について議論する。
次に、クラスタ上での分散の利用を提案する。そこでは、テキストの埋め込みに基づいて文字列をクラスタ化する(事前訓練された言語モデルから得られる)。
この置換によってもたらされるバイアスは非常に強いが、実証的に、この手法は人間の判断と高い相関を持つ計量推定器につながり、同時に推定器の分散を減少させる。
テキストの構文的およびコヒーレンスレベルの特徴を符号化すると同時に、表面レベルの特徴を無視して、これらのクラスタは単に最先端の言語モデルを評価するためのより優れた装備である、という結論に至る。
関連論文リスト
- Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Closing the Curious Case of Neural Text Degeneration [91.22954750742183]
トラニケートサンプリングの有効性を理論的に説明する。
モデルエラーの既知の源であるソフトマックスボトルネックを利用して、特定のトークンが真の確率がゼロでないことを示す。
提案手法は,低エントロピーテキスト生成におけるしきい値ベースよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-02T23:16:25Z) - Probabilistic Method of Measuring Linguistic Productivity [0.0]
本稿では, 言語的生産性を客観的に評価する手法を提案する。
トークン周波数は生産性指標を支配せず、基地のサンプリングに自然に影響を及ぼす。
コーパスに基づくアプローチとランダム化設計により、昔に作られた真のネオロジズムと単語が平等に選択される可能性が保証される。
論文 参考訳(メタデータ) (2023-08-24T08:36:28Z) - On the Efficacy of Sampling Adapters [82.5941326570812]
サンプリングアダプタを理解するための統一的なフレームワークを提案する。
彼らが実施するシフトは、正確さとリコールの間のトレードオフと見なすことができる、と私たちは主張する。
いくつかの精度強調尺度は、サンプリングアダプタが真の分布とより整合した確率分布をもたらすことを確実に示している。
論文 参考訳(メタデータ) (2023-07-07T17:59:12Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Distributional Discrepancy: A Metric for Unconditional Text Generation [6.6159481812419045]
非条件テキスト生成の目的は、実際の文でモデルを訓練し、トレーニングデータと同じ品質と多様性の新規な文を生成することである。
生成した訓練文と実際の訓練文の相違に基づいて, 生成物を評価するために, 分散不一致(DD)の新たな指標を考案した。
DDは、これらの生成モデルをランキングする上で、既存の3つの指標よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-05-04T05:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。