論文の概要: What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation
- arxiv url: http://arxiv.org/abs/2408.14622v1
- Date: Mon, 26 Aug 2024 20:35:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 15:44:05.375445
- Title: What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation
- Title(参考訳): 良いストーリーを作るものは何か、どうやって測ることができるのか? ストーリー評価に関する総合的な調査
- Authors: Dingyi Yang, Qin Jin,
- Abstract要約: ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
- 参考スコア(独自算出の注目度): 57.550045763103334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of artificial intelligence, particularly the success of Large Language Models (LLMs), the quantity and quality of automatically generated stories have significantly increased. This has led to the need for automatic story evaluation to assess the generative capabilities of computing systems and analyze the quality of both automatic-generated and human-written stories. Evaluating a story can be more challenging than other generation evaluation tasks. While tasks like machine translation primarily focus on assessing the aspects of fluency and accuracy, story evaluation demands complex additional measures such as overall coherence, character development, interestingness, etc. This requires a thorough review of relevant research. In this survey, we first summarize existing storytelling tasks, including text-to-text, visual-to-text, and text-to-visual. We highlight their evaluation challenges, identify various human criteria to measure stories, and present existing benchmark datasets. Then, we propose a taxonomy to organize evaluation metrics that have been developed or can be adopted for story evaluation. We also provide descriptions of these metrics, along with the discussion of their merits and limitations. Later, we discuss the human-AI collaboration for story evaluation and generation. Finally, we suggest potential future research directions, extending from story evaluation to general evaluations.
- Abstract(参考訳): 人工知能の発展、特にLarge Language Models(LLMs)の成功により、自動生成されたストーリーの量と品質が大幅に向上した。
これにより、コンピュータシステムの生成能力を評価し、自動生成ストーリーと人文ストーリーの両方の品質を分析するための自動ストーリ評価の必要性が高まっている。
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合がある。
機械翻訳のようなタスクは、主に流布と正確さの側面を評価することに焦点を当てているが、ストーリー評価は、全体的な一貫性、キャラクタ開発、面白さなど、複雑な追加措置を必要とする。
これには、関連する研究の徹底的なレビューが必要である。
本稿ではまず,テキスト・トゥ・テキスト,ビジュアル・トゥ・テキスト,テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクについて要約する。
評価課題を強調し、ストーリーを測定するためのさまざまな人的基準を特定し、既存のベンチマークデータセットを提示する。
そこで本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
また、これらのメトリクスの説明や、それらのメリットや制限に関する議論も提供します。
その後、ストーリー評価と生成のための人間とAIのコラボレーションについて論じる。
最後に,物語評価から一般的な評価まで,将来的な研究の方向性を提案する。
関連論文リスト
- Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Is Summary Useful or Not? An Extrinsic Human Evaluation of Text
Summaries on Downstream Tasks [45.550554287918885]
本稿では,外部手法によるテキスト要約の有用性の評価に焦点をあてる。
我々は,要約の人間的評価,すなわち質問応答,テキスト分類,テキスト類似性評価のための3つの異なる下流タスクを設計する。
要約はテキストの全体的判断に依存するタスクにおいて特に有用であるが、質問応答タスクでは効果が低い。
論文 参考訳(メタデータ) (2023-05-24T11:34:39Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - DeltaScore: Fine-Grained Story Evaluation with Perturbations [69.33536214124878]
DELTASCOREは,ニュアンスストーリーの側面の評価に摂動技術を用いた新しい手法である。
私たちの中心的な命題は、物語が特定の側面(例えば、流感)で興奮する程度は、特定の摂動に対するその感受性の大きさと相関している、と仮定している。
事前学習言語モデルを用いて,前摂動状態と後摂動状態の確率差を計算することにより,アスペクトの品質を測定する。
論文 参考訳(メタデータ) (2023-03-15T23:45:54Z) - Summarization with Graphical Elements [55.5913491389047]
本稿では,グラフィカル要素による要約という新しい課題を提案する。
タスクの研究を支援するために,高品質なラベル付きデータセットを収集する。
論文 参考訳(メタデータ) (2022-04-15T17:16:41Z) - Cut the CARP: Fishing for zero-shot story evaluation [0.0]
対照的なオーサリングとレビュー ペアリングは、ストーリーの優れたゼロショット評価を行うためのスケーラブルで効率的な方法です。
本稿では,物語の人的評価とCARPの人的評価との間に強い相関関係を示す。
また,8万件以上のストーリーから得られた130万件のストーリー批判ペアからなる新たなコーパスであるStory-Critiqueデータセットを提示,分析した。
論文 参考訳(メタデータ) (2021-10-06T23:50:46Z) - How To Evaluate Your Dialogue System: Probe Tasks as an Alternative for
Token-level Evaluation Metrics [47.20761880464552]
生成的対話モデリングは言語モデリングタスクとして広く見なされている。
このタスクは、エージェントが入力テキストを複雑な自然言語で理解し、ユーザと意味のある対話を行うように要求する。
使用される自動メトリクスは、生成されたテキストの品質を、エージェントの全体的相互作用のプロキシとして評価する。
論文 参考訳(メタデータ) (2020-08-24T13:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。