論文の概要: UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation
- arxiv url: http://arxiv.org/abs/2009.07602v1
- Date: Wed, 16 Sep 2020 11:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 23:54:35.359001
- Title: UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation
- Title(参考訳): UNION: オープンなストーリー生成を評価するための非参照メトリック
- Authors: Jian Guan, Minlie Huang
- Abstract要約: UNIONは、オープンなストーリー生成を評価するための、学習可能な未参照メトリックである。
人書きストーリーとネガティブなサンプルを区別し、ネガティブなストーリーの摂動を回復するように訓練されている。
2つのストーリーデータセットの実験では、UNIONが生成されたストーリーの品質を評価するための信頼性の高い尺度であることが示されている。
- 参考スコア(独自算出の注目度): 92.42032403795879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of existing referenced metrics (e.g., BLEU and
MoverScore), they correlate poorly with human judgments for open-ended text
generation including story or dialog generation because of the notorious
one-to-many issue: there are many plausible outputs for the same input, which
may differ substantially in literal or semantics from the limited number of
given references. To alleviate this issue, we propose UNION, a learnable
unreferenced metric for evaluating open-ended story generation, which measures
the quality of a generated story without any reference. Built on top of BERT,
UNION is trained to distinguish human-written stories from negative samples and
recover the perturbation in negative stories. We propose an approach of
constructing negative samples by mimicking the errors commonly observed in
existing NLG models, including repeated plots, conflicting logic, and
long-range incoherence. Experiments on two story datasets demonstrate that
UNION is a reliable measure for evaluating the quality of generated stories,
which correlates better with human judgments and is more generalizable than
existing state-of-the-art metrics.
- Abstract(参考訳): 既存の参照メトリクス(例: bleu と moverscore)の成功にもかかわらず、それらは悪名高い一対多の問題のために、ストーリーや対話生成を含むオープンエンドテキスト生成のための人間の判断に乏しい相関関係にある。
この問題を軽減するために,オープンエンドなストーリー生成を評価するための,学習可能な未参照メトリックであるUNIONを提案する。
BERT上に構築されたUNIONは、人書きのストーリーとネガティブなサンプルを区別し、ネガティブなストーリーの摂動を回復するように訓練されている。
提案手法は,繰り返しプロット,矛盾論理,長距離不整合など,既存のNLGモデルでよく見られる誤りを模倣して,負のサンプルを構築する手法である。
2つのストーリーデータセットの実験は、UNIONが生成したストーリーの品質を評価するための信頼性の高い尺度であることを示した。
関連論文リスト
- Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - DeltaScore: Fine-Grained Story Evaluation with Perturbations [69.33536214124878]
DELTASCOREは,ニュアンスストーリーの側面の評価に摂動技術を用いた新しい手法である。
私たちの中心的な命題は、物語が特定の側面(例えば、流感)で興奮する程度は、特定の摂動に対するその感受性の大きさと相関している、と仮定している。
事前学習言語モデルを用いて,前摂動状態と後摂動状態の確率差を計算することにより,アスペクトの品質を測定する。
論文 参考訳(メタデータ) (2023-03-15T23:45:54Z) - On the Blind Spots of Model-Based Evaluation Metrics for Text Generation [79.01422521024834]
テキスト生成評価指標のロバスト性分析に有用であるが,しばしば無視される手法を探索する。
我々は、幅広い潜在的な誤差を設計、合成し、それらが測定値の余計な低下をもたらすかどうかを確認する。
私たちの実験では、既存のメトリクスの興味深い不感、バイアス、あるいは抜け穴が明らかになりました。
論文 参考訳(メタデータ) (2022-12-20T06:24:25Z) - CTRLEval: An Unsupervised Reference-Free Metric for Evaluating
Controlled Text Generation [85.03709740727867]
制御されたテキスト生成モデルを評価するために,教師なし参照自由度であるEvalを提案する。
Evalは、事前訓練された言語モデルから生成確率をモデルトレーニングなしで組み立てる。
実験の結果,我々の測定値は他の基準値よりも人間の判断と高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2022-04-02T13:42:49Z) - Plot-guided Adversarial Example Construction for Evaluating Open-domain
Story Generation [23.646133241521614]
学習可能な評価指標は、人間の判断との相関性を高めることで、より正確な評価を約束しています。
以前の作品は、可能なシステムの欠点を模倣するために、テキスト理論的に操作可能な実例に依存していた。
本研究では,ストーリー生成に使用する制御可能な要因の構造化された表現であるエムプロットを用いて,より包括的でわかりにくいストーリーの集合を生成することで,これらの課題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-12T20:19:24Z) - STORIUM: A Dataset and Evaluation Platform for Machine-in-the-Loop Story
Generation [48.56586847883825]
我々は、オンラインのコラボレーティブなストーリーテリングコミュニティであるSTORiumから構築されたデータセットと評価プラットフォームを紹介した。
データセットには6Kの長編記事と、各物語に散在する詳細な自然言語アノテーションが含まれています。
我々は、STORiumにそれらを統合することで、データセット上で微調整された言語モデルを評価し、実際の著者は提案されたストーリーの継続をモデルに問い合わせ、編集することができる。
論文 参考訳(メタデータ) (2020-10-04T23:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。