論文の概要: StoryER: Automatic Story Evaluation via Ranking, Rating and Reasoning
- arxiv url: http://arxiv.org/abs/2210.08459v1
- Date: Sun, 16 Oct 2022 06:27:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 18:15:59.069019
- Title: StoryER: Automatic Story Evaluation via Ranking, Rating and Reasoning
- Title(参考訳): StoryER: ランク付け、レーティング、推論による自動ストーリ評価
- Authors: Hong Chen, Duc Minh Vo, Hiroya Takamura, Yusuke Miyao, Hideki Nakayama
- Abstract要約: textbfStory textbfEvaluationメソッドは、ストーリーを判断する際の人間の好みを模倣する。
textbfStoryERは、 textbfRanking、 textbfRating、 textbfReasoningの3つのサブタスクで構成されている。
- 参考スコア(独自算出の注目度): 41.75889468424616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing automatic story evaluation methods place a premium on story lexical
level coherence, deviating from human preference. We go beyond this limitation
by considering a novel \textbf{Story} \textbf{E}valuation method that mimics
human preference when judging a story, namely \textbf{StoryER}, which consists
of three sub-tasks: \textbf{R}anking, \textbf{R}ating and \textbf{R}easoning.
Given either a machine-generated or a human-written story, StoryER requires the
machine to output 1) a preference score that corresponds to human preference,
2) specific ratings and their corresponding confidences and 3) comments for
various aspects (e.g., opening, character-shaping). To support these tasks, we
introduce a well-annotated dataset comprising (i) 100k ranked story pairs; and
(ii) a set of 46k ratings and comments on various aspects of the story. We
finetune Longformer-Encoder-Decoder (LED) on the collected dataset, with the
encoder responsible for preference score and aspect prediction and the decoder
for comment generation. Our comprehensive experiments result in a competitive
benchmark for each task, showing the high correlation to human preference. In
addition, we have witnessed the joint learning of the preference scores, the
aspect ratings, and the comments brings gain in each single task. Our dataset
and benchmarks are publicly available to advance the research of story
evaluation tasks.\footnote{Dataset and pre-trained model demo are available at
anonymous website \url{http://storytelling-lab.com/eval} and
\url{https://github.com/sairin1202/StoryER}}
- Abstract(参考訳): 既存の自動ストーリー評価手法は、人間の好みから外れた、ストーリーの語彙レベルの一貫性にプレミアムを置く。
この制限を超えて、ストーリーを判断する際に人間の好みを模倣する新しい \textbf{story} \textbf{e}valuationメソッド、すなわち \textbf{storyer}という3つのサブタスクからなる \textbf{r}anking, \textbf{r}ating, \textbf{r}easoning を考える。
StoryERは機械が生成したストーリーか人間によるストーリーのいずれかを前提に、機械に出力を要求する
1)人間の嗜好に対応する選好スコア
2 特定格付け及びその信頼度及び信頼度
3) 様々な側面(例えば、オープニング、文字形成)に対するコメント。
これらのタスクをサポートするために、よく注釈付けされたデータセットを導入する。
(i)100kのストーリーペア、及び
(ii)物語のさまざまな面について46kの評価とコメントの組。
収集したデータセットにLongformer-Encoder-Decoder(LED)を微調整し、好みのスコアとアスペクト予測を行うエンコーダとコメント生成のためのデコーダを付与する。
総合実験の結果,各タスクに対する競争ベンチマークが得られ,人間の嗜好と高い相関が示された。
さらに、好みスコア、アスペクトレーティング、そしてコメントが1つのタスクごとに利益をもたらすという共同学習を目の当たりにした。
私たちのデータセットとベンチマークは、ストーリー評価タスクの研究を進めるために公開されています。
footnote{dataset and pre-trained model demoは匿名ウェブサイト \url{http://storytelling-lab.com/eval} と \url{https://github.com/sairin1202/storyer}} で入手できる。
関連論文リスト
- Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - RoViST:Learning Robust Metrics for Visual Storytelling [2.7124743347047033]
良いストーリーでどの側面を探すかを分析する3つの評価指標セットを提案する。
我々は,機械ストーリーのサンプルを用いて,人間の判断スコアとの相関を解析し,測定値の信頼性を測定する。
論文 参考訳(メタデータ) (2022-05-08T03:51:22Z) - SummScreen: A Dataset for Abstractive Screenplay Summarization [52.56760815805357]
SummScreenは、テレビシリーズトランスクリプトと人間の書かれたリキャップのペアで構成されたデータセットです。
プロットの詳細はしばしば文字対話で間接的に表現され、書き起こしの全体にわたって散らばることがある。
キャラクタはテレビシリーズの基本であるため,2つのエンティティ中心評価指標も提案する。
論文 参考訳(メタデータ) (2021-04-14T19:37:40Z) - Unsupervised Summarization for Chat Logs with Topic-Oriented Ranking and
Context-Aware Auto-Encoders [59.038157066874255]
本稿では,手動ラベル付きデータを用いずにチャット要約を行うrankaeという新しいフレームワークを提案する。
RankAEは、中心性と多様性に応じてトピックの発話を同時に選択するトピック指向のランキング戦略で構成されています。
消音自動エンコーダは、選択された発話に基づいて簡潔でコンテキスト情報に基づいた要約を生成するように設計されています。
論文 参考訳(メタデータ) (2020-12-14T07:31:17Z) - STORIUM: A Dataset and Evaluation Platform for Machine-in-the-Loop Story
Generation [48.56586847883825]
我々は、オンラインのコラボレーティブなストーリーテリングコミュニティであるSTORiumから構築されたデータセットと評価プラットフォームを紹介した。
データセットには6Kの長編記事と、各物語に散在する詳細な自然言語アノテーションが含まれています。
我々は、STORiumにそれらを統合することで、データセット上で微調整された言語モデルを評価し、実際の著者は提案されたストーリーの継続をモデルに問い合わせ、編集することができる。
論文 参考訳(メタデータ) (2020-10-04T23:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。