論文の概要: MAUVE: Human-Machine Divergence Curves for Evaluating Open-Ended Text
Generation
- arxiv url: http://arxiv.org/abs/2102.01454v1
- Date: Tue, 2 Feb 2021 11:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:54:09.650429
- Title: MAUVE: Human-Machine Divergence Curves for Evaluating Open-Ended Text
Generation
- Title(参考訳): MAUVE:オープンエンディングテキスト生成評価のためのヒューマンマシンダイバージェンス曲線
- Authors: Krishna Pillutla, Swabha Swayamdipta, Rowan Zellers, John Thickstun,
Yejin Choi, Zaid Harchaoui
- Abstract要約: オープンエンドテキスト生成の指標であるMAUVEを提案する。
本稿では、Webテキストドメインとストーリードメインの2つのオープンエンドな生成タスクに対して実験を行う。
- 参考スコア(独自算出の注目度): 41.360219974284114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite major advances in open-ended text generation, there has been limited
progress in designing evaluation metrics for this task. We propose MAUVE -- a
metric for open-ended text generation, which directly compares the distribution
of machine-generated text to that of human language. MAUVE measures the mean
area under the divergence curve for the two distributions, exploring the
trade-off between two types of errors: those arising from parts of the human
distribution that the model distribution approximates well, and those it does
not. We present experiments across two open-ended generation tasks in the web
text domain and the story domain, and a variety of decoding algorithms and
model sizes. Our results show that evaluation under MAUVE indeed reflects the
more natural behavior with respect to model size, compared to prior metrics.
MAUVE's ordering of the decoding algorithms also agrees with that of generation
perplexity, the most widely used metric in open-ended text generation; however,
MAUVE presents a more principled evaluation metric for the task as it considers
both model and human text.
- Abstract(参考訳): オープンエンドテキスト生成の大きな進歩にもかかわらず、このタスクの評価基準の設計には限界がある。
本稿では,機械生成テキストの分布を人間の言語と直接比較する,オープンエンドテキスト生成の指標であるMAUVEを提案する。
MAUVEは2つの分布の分岐曲線の下の平均面積を測定し、モデル分布がよく近似する分布の一部から生じるものと、そうでないものという2つのタイプの誤差の間のトレードオフを探索する。
ウェブテキスト領域とストーリー領域における2つのオープンエンドな生成タスク、および様々な復号アルゴリズムとモデルサイズについて実験を行った。
この結果から,MAUVEによる評価は,モデルサイズに対する自然な挙動を反映していることが明らかとなった。
MAUVEの復号アルゴリズムの順序は、オープンエンドテキスト生成において最も広く使われている指標である世代パープレキシティと一致するが、MAUVEはモデルと人文の両方を考慮することにより、タスクに対するより原則化された評価基準を示す。
関連論文リスト
- Open-Domain Text Evaluation via Meta Distribution Modeling [59.38686738625588]
オープンドメイン生成モデルを評価するための新しいアプローチ - Meta-Distribution Methods (MDM) を提案する。
筆者らは,1)メタディストリビューション法を利用したオープンドメインテキスト生成評価のためのMDMについて検討する。1)メタディストリビューション法を用いて,識別器ベースのメトリクスをトレーニングするためのドメイン内負のサンプルを生成するemphDiscriminative MDM,2)2つの言語モデル間の分散の相違を直接利用して評価を行うemphDiscriminative MDMについて検討する。
論文 参考訳(メタデータ) (2023-06-20T20:37:54Z) - MISMATCH: Fine-grained Evaluation of Machine-generated Text with
Mismatch Error Types [68.76742370525234]
テキスト間のきめ細かいミスマッチに基づいて、7つのNLPタスクにおける人間の判断をモデル化する新しい評価手法を提案する。
細粒度評価のためのNLPタスクの最近の取り組みに触発されて,13種類のミスマッチエラータイプを紹介した。
7つのNLPタスクから得られた有意なデータセットの文対間のミスマッチ誤差は,人間の評価とよく一致している。
論文 参考訳(メタデータ) (2023-06-18T01:38:53Z) - INSTRUCTSCORE: Towards Explainable Text Generation Evaluation with
Automatic Feedback [83.15039512250519]
テキスト生成のためのオープンソースの説明可能な評価指標であるINSTRUCTSCOREを提案する。
GPT4の明示的な人的指導と暗黙的な知識の両方を活用することで、評価指標を作成するためにLLAMAモデルを微調整する。
WMT22 Zh-En翻訳タスクにおけるINSTRUCTSCOREの評価を行った。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [59.89562228267165]
言語評価の大きな課題は、既存のメトリクスと人間の評価の間に明確な違いがあることである。
LLMをベースとした新たな評価フレームワークを提案し、生成されたテキストと参照テキストを比較して総合的な評価フレームワークを提供する。
我々のモデルは競争力が高く、人間のアノテータとの一貫性が非常に高い。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - MAUVE Scores for Generative Models: Theory and Practice [78.12659856910912]
ジェネレーティブAIは成熟し、大規模なモデルが人間の手書きのテキストと著しく写実的な画像と区別できないようなテキストを生成するようになった。
生成されたデータの分布がターゲットの実データ分布にどの程度近いかを測定することは、既存のモデルを診断し、より良いモデルを開発するための重要なステップである。
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Towards Computationally Verifiable Semantic Grounding for Language
Models [18.887697890538455]
本論文は、エンティティ関係三重項の集合として形式化された所望のセマンティックメッセージが与えられた条件モデル生成テキストとしてLMを概念化する。
LMを自動エンコーダに埋め込むと、出力が入力メッセージと同じ表現領域にあるセマンティック・フラエンシに出力を送り込む。
提案手法は,グリーディ検索のベースラインを大幅に改善することを示す。
論文 参考訳(メタデータ) (2022-11-16T17:35:52Z) - Distributional Discrepancy: A Metric for Unconditional Text Generation [6.6159481812419045]
非条件テキスト生成の目的は、実際の文でモデルを訓練し、トレーニングデータと同じ品質と多様性の新規な文を生成することである。
生成した訓練文と実際の訓練文の相違に基づいて, 生成物を評価するために, 分散不一致(DD)の新たな指標を考案した。
DDは、これらの生成モデルをランキングする上で、既存の3つの指標よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-05-04T05:53:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。