論文の概要: Plot-guided Adversarial Example Construction for Evaluating Open-domain
Story Generation
- arxiv url: http://arxiv.org/abs/2104.05801v1
- Date: Mon, 12 Apr 2021 20:19:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:44:15.596972
- Title: Plot-guided Adversarial Example Construction for Evaluating Open-domain
Story Generation
- Title(参考訳): オープンドメインストーリー生成評価のためのPlot-guided Adversarial Exampleの構築
- Authors: Sarik Ghazarian, Zixi Liu, Akash SM, Ralph Weischedel, Aram Galstyan,
Nanyun Peng
- Abstract要約: 学習可能な評価指標は、人間の判断との相関性を高めることで、より正確な評価を約束しています。
以前の作品は、可能なシステムの欠点を模倣するために、テキスト理論的に操作可能な実例に依存していた。
本研究では,ストーリー生成に使用する制御可能な要因の構造化された表現であるエムプロットを用いて,より包括的でわかりにくいストーリーの集合を生成することで,これらの課題に対処することを提案する。
- 参考スコア(独自算出の注目度): 23.646133241521614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent advances of open-domain story generation, the lack of
reliable automatic evaluation metrics becomes an increasingly imperative issue
that hinders the fast development of story generation. According to conducted
researches in this regard, learnable evaluation metrics have promised more
accurate assessments by having higher correlations with human judgments. A
critical bottleneck of obtaining a reliable learnable evaluation metric is the
lack of high-quality training data for classifiers to efficiently distinguish
plausible and implausible machine-generated stories. Previous works relied on
\textit{heuristically manipulated} plausible examples to mimic possible system
drawbacks such as repetition, contradiction, or irrelevant content in the text
level, which can be \textit{unnatural} and \textit{oversimplify} the
characteristics of implausible machine-generated stories. We propose to tackle
these issues by generating a more comprehensive set of implausible stories
using {\em plots}, which are structured representations of controllable factors
used to generate stories. Since these plots are compact and structured, it is
easier to manipulate them to generate text with targeted undesirable
properties, while at the same time maintain the grammatical correctness and
naturalness of the generated sentences. To improve the quality of generated
implausible stories, we further apply the adversarial filtering procedure
presented by \citet{zellers2018swag} to select a more nuanced set of
implausible texts. Experiments show that the evaluation metrics trained on our
generated data result in more reliable automatic assessments that correlate
remarkably better with human judgments compared to the baselines.
- Abstract(参考訳): オープンドメインのストーリー生成の最近の進歩により、信頼性の高い自動評価メトリクスの欠如は、ストーリー生成の急速な発展を妨げる、ますます重要な問題になりつつある。
この点で実施した研究によれば、学習可能な評価指標は、人間の判断と高い相関関係を持つことによって、より正確な評価を約束している。
信頼性の高い学習可能な評価基準を得る上で重要なボトルネックは、分類器の高品質なトレーニングデータがないことである。
以前の著作は、テキストレベルでの反復、矛盾、無関係なコンテンツのようなシステム上の欠点を模倣するために、あり得る実例に依存しており、それは、機械で生成された物語の特徴である、\textit{unnatural} と \textit{oversimplify} である。
ストーリー生成に使用される制御可能な要素の構造化表現である {\em plots} を用いて,より包括的でないストーリー群を生成することで,これらの問題に取り組むことを提案する。
これらのプロットはコンパクトで構造化されているため、意図しない性質のテキストを生成するのが容易であり、同時に生成した文の文法的正確性と自然性を維持している。
生成した不明瞭な記事の品質を向上させるため,より曖昧なテキストの集合を選択するために, \citet{zellers2018swag} が提示する逆フィルタリング手法を適用する。
実験の結果, 得られたデータに基づいてトレーニングした評価指標は, 精度の高い自動評価結果となり, 基準値と比較すると, 人的判断と極めてよく相関していることがわかった。
関連論文リスト
- What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Factually Consistent Summarization via Reinforcement Learning with
Textual Entailment Feedback [57.816210168909286]
我々は,この問題を抽象的な要約システムで解くために,テキストエンテーメントモデルの最近の進歩を活用している。
我々は、事実整合性を最適化するために、レファレンスフリーのテキストエンターメント報酬を用いた強化学習を用いる。
自動測定と人的評価の両結果から,提案手法は生成した要約の忠実さ,サリエンス,簡潔さを著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-05-31T21:04:04Z) - Look-back Decoding for Open-Ended Text Generation [62.53302138266465]
本研究では,現在の復号化過程と過去の復号化過程の分布距離を追跡する改良された復号化アルゴリズムであるLook-backを提案する。
ルックバックは、潜在的反復句とトピックドリフトを自動的に予測し、障害モードを引き起こす可能性のあるトークンを削除することができる。
文書の継続とストーリー生成に関する復号実験を行い、Look-backがより流動的で一貫性のあるテキストを生成することを実証する。
論文 参考訳(メタデータ) (2023-05-22T20:42:37Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - A Benchmark Corpus for the Detection of Automatically Generated Text in
Academic Publications [0.02578242050187029]
本稿では,人工的な研究内容からなる2つのデータセットについて述べる。
第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。
部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。
BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文とを比較し,データセットの品質を評価する。
論文 参考訳(メタデータ) (2022-02-04T08:16:56Z) - Evaluating Factuality in Generation with Dependency-level Entailment [57.5316011554622]
本稿では,依存弧のレベルで分解するエンテーメントの新たな定式化を提案する。
このデータに基づいて訓練された依存関係弧包含モデルにより,文レベルの手法よりもパラフレーズ化や要約における現実的不整合を識別できることが示されている。
論文 参考訳(メタデータ) (2020-10-12T06:43:10Z) - UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation [92.42032403795879]
UNIONは、オープンなストーリー生成を評価するための、学習可能な未参照メトリックである。
人書きストーリーとネガティブなサンプルを区別し、ネガティブなストーリーの摂動を回復するように訓練されている。
2つのストーリーデータセットの実験では、UNIONが生成されたストーリーの品質を評価するための信頼性の高い尺度であることが示されている。
論文 参考訳(メタデータ) (2020-09-16T11:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。