Fugu-MT 論文翻訳(概要): DeltaScore: Evaluating Story Generation with Differentiating Perturbations

論文の概要: DeltaScore: Evaluating Story Generation with Differentiating Perturbations

arxiv url: http://arxiv.org/abs/2303.08991v1
Date: Wed, 15 Mar 2023 23:45:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-17 17:32:30.737049
Title: DeltaScore: Evaluating Story Generation with Differentiating Perturbations
Title（参考訳）: DeltaScore: 異なる摂動によるストーリ生成の評価
Authors: Zhuohan Xie, Miao Li, Trevor Cohn and Jey Han Lau
Abstract要約: 本稿では,微粒なストーリーの側面を評価するために摂動を利用したデルタスコアを提案する。私たちの中核的な考え方は、ストーリーが特定の側面でより良く実行されると、それが特定の摂動に影響されるという仮説に基づいている。複数のストーリードメインにまたがる、最先端のモデルベースおよび従来の類似度ベースのメトリクスに対するデルタスコアを評価する。
参考スコア（独自算出の注目度）: 48.061781962000204
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Various evaluation metrics exist for natural language generation tasks, but they have limited utility for story generation since they generally do not correlate well with human judgments and do not measure fine-grained story aspects, such as fluency versus relatedness, as they are intended to assess overall generation quality. In this paper, we propose deltascore, an approach that utilizes perturbation to evaluate fine-grained story aspects. Our core idea is based on the hypothesis that the better the story performs in a specific aspect (e.g., fluency), the more it will be affected by a particular perturbation (e.g., introducing typos). To measure the impact, we calculate the likelihood difference between the pre- and post-perturbation stories using a language model. We evaluate deltascore against state-of-the-art model-based and traditional similarity-based metrics across multiple story domains, and investigate its correlation with human judgments on five fine-grained story aspects: fluency, coherence, relatedness, logicality, and interestingness. Our results demonstrate that deltascore performs impressively in evaluating fine-grained story aspects, and we discovered a striking outcome where a specific perturbation appears to be highly effective in measuring most aspects.
Abstract（参考訳）: 自然言語生成タスクには様々な評価指標が存在するが、一般に人間の判断とよく相関せず、全体の生成品質を評価することを目的としているため、流感や関連性などのきめ細かいストーリーの側面を計測しないため、ストーリー生成には限界がある。本稿では,きめ細かなストーリーの側面を評価するために摂動を利用したアプローチであるdeltascoreを提案する。私たちの中核的な考え方は、ストーリーが特定の側面(例えば、流感)でより良く働くと、それが特定の摂動(例えば、タイポの導入)に影響されるという仮説に基づいている。影響を測定するために,言語モデルを用いて,事前摂動と後摂動の確率差を算出する。複数のストーリードメインにまたがる最先端のモデルベースおよび従来の類似度に基づくメトリクスに対するデルタスコアの評価を行い、その5つのきめ細かなストーリーの側面における人間の判断との相関について検討した。その結果, デルタスコアは微粒なストーリー面の評価に優れており, 特定の摂動が多くの面の計測に極めて有効であることがわかった。

関連論文リスト

Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文参考訳（メタデータ） (2024-09-20T14:56:33Z)
What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文参考訳（メタデータ） (2024-08-26T20:35:42Z)
Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition [8.058451580903123]
人間の類似性の観点から,物語の質を計測する新しい手法を提案する。次に、この手法を用いて、複数のモデルによって生成されたストーリーを評価する。 TAPMのビジュアルコンポーネントと言語コンポーネントをアップグレードすると、競合するパフォーマンスをもたらすモデルが得られる。
論文参考訳（メタデータ） (2024-07-05T14:48:15Z)
Modeling Emotional Trajectories in Written Stories Utilizing Transformers and Weakly-Supervised Learning [47.02027575768659]
本研究では,個別の感情カテゴリーで注釈付けされた子どもの物語の既存のデータセットに対して,連続的原子価と覚醒ラベルを導入する。得られた感情信号を予測するために,DeBERTaモデルを微調整し,弱教師付き学習手法を用いてベースラインを改善する。詳細な分析では、著者、個々の物語、物語内のセクションなどの要因によって結果がどの程度異なるかが示される。
論文参考訳（メタデータ） (2024-06-04T12:17:16Z)
Narrative Action Evaluation with Prompt-Guided Multimodal Interaction [60.281405999483]
ナラティブ・アクション・アセスメント(NAE)は、行動の実行を評価する専門家のコメントを作成することを目的としている。 NAEは、物語の柔軟性と評価の厳格さの両方を必要とするため、より困難なタスクです。本稿では,様々な情報モダリティ間のインタラクションを容易にするための,プロンプト誘導型マルチモーダルインタラクションフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-22T17:55:07Z)
RoViST:Learning Robust Metrics for Visual Storytelling [2.7124743347047033]
良いストーリーでどの側面を探すかを分析する3つの評価指標セットを提案する。我々は,機械ストーリーのサンプルを用いて,人間の判断スコアとの相関を解析し,測定値の信頼性を測定する。
論文参考訳（メタデータ） (2022-05-08T03:51:22Z)
A Temporal Variational Model for Story Generation [21.99104738567138]
最近の言語モデルは、物語生成において興味深く文法的に正しいテキストを生成することができるが、プロット開発や長期的一貫性を欠くことが多い。本稿では,TD-VAE(Temporal Difference Variational Autoencoder)に基づく潜在ベクトル計画手法による実験を行う。その結果,自動クローズおよびスワップ評価において高い性能を示した。
論文参考訳（メタデータ） (2021-09-14T16:36:12Z)
UNION: An Unreferenced Metric for Evaluating Open-ended Story Generation [92.42032403795879]
UNIONは、オープンなストーリー生成を評価するための、学習可能な未参照メトリックである。人書きストーリーとネガティブなサンプルを区別し、ネガティブなストーリーの摂動を回復するように訓練されている。 2つのストーリーデータセットの実験では、UNIONが生成されたストーリーの品質を評価するための信頼性の高い尺度であることが示されている。
論文参考訳（メタデータ） (2020-09-16T11:01:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。