論文の概要: DeltaScore: Evaluating Story Generation with Differentiating
Perturbations
- arxiv url: http://arxiv.org/abs/2303.08991v1
- Date: Wed, 15 Mar 2023 23:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:32:30.737049
- Title: DeltaScore: Evaluating Story Generation with Differentiating
Perturbations
- Title(参考訳): DeltaScore: 異なる摂動によるストーリ生成の評価
- Authors: Zhuohan Xie, Miao Li, Trevor Cohn and Jey Han Lau
- Abstract要約: 本稿では,微粒なストーリーの側面を評価するために摂動を利用したデルタスコアを提案する。
私たちの中核的な考え方は、ストーリーが特定の側面でより良く実行されると、それが特定の摂動に影響されるという仮説に基づいている。
複数のストーリードメインにまたがる、最先端のモデルベースおよび従来の類似度ベースのメトリクスに対するデルタスコアを評価する。
- 参考スコア(独自算出の注目度): 48.061781962000204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Various evaluation metrics exist for natural language generation tasks, but
they have limited utility for story generation since they generally do not
correlate well with human judgments and do not measure fine-grained story
aspects, such as fluency versus relatedness, as they are intended to assess
overall generation quality. In this paper, we propose deltascore, an approach
that utilizes perturbation to evaluate fine-grained story aspects. Our core
idea is based on the hypothesis that the better the story performs in a
specific aspect (e.g., fluency), the more it will be affected by a particular
perturbation (e.g., introducing typos). To measure the impact, we calculate the
likelihood difference between the pre- and post-perturbation stories using a
language model. We evaluate deltascore against state-of-the-art model-based and
traditional similarity-based metrics across multiple story domains, and
investigate its correlation with human judgments on five fine-grained story
aspects: fluency, coherence, relatedness, logicality, and interestingness. Our
results demonstrate that deltascore performs impressively in evaluating
fine-grained story aspects, and we discovered a striking outcome where a
specific perturbation appears to be highly effective in measuring most aspects.
- Abstract(参考訳): 自然言語生成タスクには様々な評価指標が存在するが、一般に人間の判断とよく相関せず、全体の生成品質を評価することを目的としているため、流感や関連性などのきめ細かいストーリーの側面を計測しないため、ストーリー生成には限界がある。
本稿では,きめ細かなストーリーの側面を評価するために摂動を利用したアプローチであるdeltascoreを提案する。
私たちの中核的な考え方は、ストーリーが特定の側面(例えば、流感)でより良く働くと、それが特定の摂動(例えば、タイポの導入)に影響されるという仮説に基づいている。
影響を測定するために,言語モデルを用いて,事前摂動と後摂動の確率差を算出する。
複数のストーリードメインにまたがる最先端のモデルベースおよび従来の類似度に基づくメトリクスに対するデルタスコアの評価を行い、その5つのきめ細かなストーリーの側面における人間の判断との相関について検討した。
その結果, デルタスコアは微粒なストーリー面の評価に優れており, 特定の摂動が多くの面の計測に極めて有効であることがわかった。
関連論文リスト
- FENICE: Factuality Evaluation of summarization based on Natural language
Inference and Claim Extraction [92.2477303232719]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - A Cross-Attention Augmented Model for Event-Triggered Context-Aware
Story Generation [28.046803293933213]
生成したストーリーの関連性とコヒーレンスを高める新しいニューラルジェネレーションモデルであるEtriCAを導入する。
我々は、大規模書籍コーパスに知識向上のためのポストトレーニングフレームワーク(KeEtriCA)を採用。
その結果、自動測定では約5%が改善され、人間の評価では10%以上が改善された。
論文 参考訳(メタデータ) (2023-11-19T08:54:47Z) - RoViST:Learning Robust Metrics for Visual Storytelling [2.7124743347047033]
良いストーリーでどの側面を探すかを分析する3つの評価指標セットを提案する。
我々は,機械ストーリーのサンプルを用いて,人間の判断スコアとの相関を解析し,測定値の信頼性を測定する。
論文 参考訳(メタデータ) (2022-05-08T03:51:22Z) - A Temporal Variational Model for Story Generation [21.99104738567138]
最近の言語モデルは、物語生成において興味深く文法的に正しいテキストを生成することができるが、プロット開発や長期的一貫性を欠くことが多い。
本稿では,TD-VAE(Temporal Difference Variational Autoencoder)に基づく潜在ベクトル計画手法による実験を行う。
その結果,自動クローズおよびスワップ評価において高い性能を示した。
論文 参考訳(メタデータ) (2021-09-14T16:36:12Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Plot-guided Adversarial Example Construction for Evaluating Open-domain
Story Generation [23.646133241521614]
学習可能な評価指標は、人間の判断との相関性を高めることで、より正確な評価を約束しています。
以前の作品は、可能なシステムの欠点を模倣するために、テキスト理論的に操作可能な実例に依存していた。
本研究では,ストーリー生成に使用する制御可能な要因の構造化された表現であるエムプロットを用いて,より包括的でわかりにくいストーリーの集合を生成することで,これらの課題に対処することを提案する。
論文 参考訳(メタデータ) (2021-04-12T20:19:24Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation [92.42032403795879]
UNIONは、オープンなストーリー生成を評価するための、学習可能な未参照メトリックである。
人書きストーリーとネガティブなサンプルを区別し、ネガティブなストーリーの摂動を回復するように訓練されている。
2つのストーリーデータセットの実験では、UNIONが生成されたストーリーの品質を評価するための信頼性の高い尺度であることが示されている。
論文 参考訳(メタデータ) (2020-09-16T11:01:46Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。