論文の概要: MAUVE: Human-Machine Divergence Curves for Evaluating Open-Ended Text
Generation
- arxiv url: http://arxiv.org/abs/2102.01454v1
- Date: Tue, 2 Feb 2021 11:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:54:09.650429
- Title: MAUVE: Human-Machine Divergence Curves for Evaluating Open-Ended Text
Generation
- Title(参考訳): MAUVE:オープンエンディングテキスト生成評価のためのヒューマンマシンダイバージェンス曲線
- Authors: Krishna Pillutla, Swabha Swayamdipta, Rowan Zellers, John Thickstun,
Yejin Choi, Zaid Harchaoui
- Abstract要約: オープンエンドテキスト生成の指標であるMAUVEを提案する。
本稿では、Webテキストドメインとストーリードメインの2つのオープンエンドな生成タスクに対して実験を行う。
- 参考スコア(独自算出の注目度): 41.360219974284114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite major advances in open-ended text generation, there has been limited
progress in designing evaluation metrics for this task. We propose MAUVE -- a
metric for open-ended text generation, which directly compares the distribution
of machine-generated text to that of human language. MAUVE measures the mean
area under the divergence curve for the two distributions, exploring the
trade-off between two types of errors: those arising from parts of the human
distribution that the model distribution approximates well, and those it does
not. We present experiments across two open-ended generation tasks in the web
text domain and the story domain, and a variety of decoding algorithms and
model sizes. Our results show that evaluation under MAUVE indeed reflects the
more natural behavior with respect to model size, compared to prior metrics.
MAUVE's ordering of the decoding algorithms also agrees with that of generation
perplexity, the most widely used metric in open-ended text generation; however,
MAUVE presents a more principled evaluation metric for the task as it considers
both model and human text.
- Abstract(参考訳): オープンエンドテキスト生成の大きな進歩にもかかわらず、このタスクの評価基準の設計には限界がある。
本稿では,機械生成テキストの分布を人間の言語と直接比較する,オープンエンドテキスト生成の指標であるMAUVEを提案する。
MAUVEは2つの分布の分岐曲線の下の平均面積を測定し、モデル分布がよく近似する分布の一部から生じるものと、そうでないものという2つのタイプの誤差の間のトレードオフを探索する。
ウェブテキスト領域とストーリー領域における2つのオープンエンドな生成タスク、および様々な復号アルゴリズムとモデルサイズについて実験を行った。
この結果から,MAUVEによる評価は,モデルサイズに対する自然な挙動を反映していることが明らかとなった。
MAUVEの復号アルゴリズムの順序は、オープンエンドテキスト生成において最も広く使われている指標である世代パープレキシティと一致するが、MAUVEはモデルと人文の両方を考慮することにより、タスクに対するより原則化された評価基準を示す。
関連論文リスト
- Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Unlocking Structure Measuring: Introducing PDD, an Automatic Metric for Positional Discourse Coherence [39.065349875944634]
本稿では,2つの長文間の談話の相違を定量化する手法を提案する。
ヒトの嗜好やGPT-4のコヒーレンス評価とより密接に一致し,既存の評価方法よりも優れていた。
論文 参考訳(メタデータ) (2024-02-15T18:23:39Z) - Language Model Decoding as Direct Metrics Optimization [87.68281625776282]
現在の復号法は、異なる側面にわたる人間のテキストと整合するテキストを生成するのに苦労している。
本研究では,言語モデルからの復号化を最適化問題として,期待される性能と人間のテキストとの厳密なマッチングを目的とした。
この誘導分布は,人間のテキストの難易度を向上させることが保証されていることを証明し,人間のテキストの基本的な分布に対するより良い近似を示唆する。
論文 参考訳(メタデータ) (2023-10-02T09:35:27Z) - Open-Domain Text Evaluation via Contrastive Distribution Methods [75.59039812868681]
本稿では,Contrastive Distribution Methodsと呼ばれるオープンドメインテキスト生成手法を提案する。
マルチターン対話におけるコヒーレンス評価と制御可能な生成におけるコヒーレンス評価の実験により,CDMの優位性は人間の判断と相関していることが示された。
論文 参考訳(メタデータ) (2023-06-20T20:37:54Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Distributional Discrepancy: A Metric for Unconditional Text Generation [6.6159481812419045]
非条件テキスト生成の目的は、実際の文でモデルを訓練し、トレーニングデータと同じ品質と多様性の新規な文を生成することである。
生成した訓練文と実際の訓練文の相違に基づいて, 生成物を評価するために, 分散不一致(DD)の新たな指標を考案した。
DDは、これらの生成モデルをランキングする上で、既存の3つの指標よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-05-04T05:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。