論文の概要: Cut the CARP: Fishing for zero-shot story evaluation
- arxiv url: http://arxiv.org/abs/2110.03111v2
- Date: Fri, 8 Oct 2021 17:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 12:21:00.123171
- Title: Cut the CARP: Fishing for zero-shot story evaluation
- Title(参考訳): cut the carp: ゼロショットストーリー評価のための釣り
- Authors: Shahbuland Matiana, JR Smith, Ryan Teehan, Louis Castricato, Stella
Biderman, Leo Gao, Spencer Frazier
- Abstract要約: 対照的なオーサリングとレビュー ペアリングは、ストーリーの優れたゼロショット評価を行うためのスケーラブルで効率的な方法です。
本稿では,物語の人的評価とCARPの人的評価との間に強い相関関係を示す。
また,8万件以上のストーリーから得られた130万件のストーリー批判ペアからなる新たなコーパスであるStory-Critiqueデータセットを提示,分析した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large-scale language models (Raffel et al., 2019; Brown et
al., 2020) have brought significant qualitative and quantitative improvements
in machine-driven text generation. Despite this, generation and evaluation of
machine-generated narrative text remains a challenging problem. Objective
evaluation of computationally-generated stories may be prohibitively expensive,
require meticulously annotated datasets, or may not adequately measure the
logical coherence of a generated story's narratological structure.
Informed by recent advances in contrastive learning (Radford et al., 2021),
we present Contrastive Authoring and Reviewing Pairing (CARP): a scalable,
efficient method for performing qualitatively superior, zero-shot evaluation of
stories. We show a strong correlation between human evaluation of stories and
those of CARP. Model outputs more significantly correlate with corresponding
human input than those language-model based methods which utilize finetuning or
prompt engineering approaches. We also present and analyze the Story-Critique
Dataset, a new corpora composed of 1.3 million aligned story-critique pairs
derived from over 80,000 stories. We expect this corpus to be of interest to
NLP researchers.
- Abstract(参考訳): 大規模言語モデル(raffel et al., 2019; brown et al., 2020)の最近の進歩は、機械駆動テキスト生成に大きな質的かつ定量的な改善をもたらした。
それにもかかわらず、機械による物語文の生成と評価は依然として難しい問題である。
計算的に生成されたストーリーの客観的な評価は、制限的に高価であるか、注意深い注釈付きデータセットを必要とするか、あるいは生成されたストーリーのナラトロジー構造の論理的コヒーレンスを適切に測定できないかである。
コントラスト学習の最近の進歩 (Radford et al., 2021) により, 質的に優れた物語のゼロショット評価を行うスケーラブルで効率的な手法であるContrastive Authoring and Reviewing Pairing (CARP) を提案する。
本稿では,物語の人的評価とCARPの人的評価との間に強い相関関係を示す。
モデル出力は、ファインチューニングやプロンプトエンジニアリングアプローチを利用した言語モデルに基づく手法よりも、対応する人間の入力とより大きく相関する。
我々はまた、8万以上のストーリーから派生した130万のストーリー批判ペアからなる新しいコーパスであるStory-Critique Datasetを提示、分析した。
このコーパスはNLP研究者にとって大きな関心を持つだろう。
関連論文リスト
- What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition [8.058451580903123]
人間の類似性の観点から,物語の質を計測する新しい手法を提案する。
次に、この手法を用いて、複数のモデルによって生成されたストーリーを評価する。
TAPMのビジュアルコンポーネントと言語コンポーネントをアップグレードすると、競合するパフォーマンスをもたらすモデルが得られる。
論文 参考訳(メタデータ) (2024-07-05T14:48:15Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - StoryAnalogy: Deriving Story-level Analogies from Large Language Models
to Unlock Analogical Understanding [72.38872974837462]
大規模ストーリーレベルの類似語コーパスを構築することにより,類似語を識別・生成する能力を評価する。
textscStory Analogyには、さまざまなドメインから24Kストーリーペアが含まれており、拡張された構造マッピング理論の2つの類似点に人間のアノテーションがある。
我々は、textscStory Analogyのデータは、大言語モデルにおけるアナログ生成の品質を向上させることができることを観察した。
論文 参考訳(メタデータ) (2023-10-19T16:29:23Z) - FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation [176.56131810249602]
大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
論文 参考訳(メタデータ) (2023-05-23T17:06:00Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - MOCHA: A Multi-Task Training Approach for Coherent Text Generation from
Cognitive Perspective [22.69509556890676]
本稿では,文章の認知理論に基づくコヒーレントテキスト生成のための新しいマルチタスク学習戦略を提案する。
我々は,物語生成,ニュース記事作成,議論生成という3つのオープンエンド世代タスクに対して,我々のモデルを広範囲に評価する。
論文 参考訳(メタデータ) (2022-10-26T11:55:41Z) - TopNet: Learning from Neural Topic Model to Generate Long Stories [43.5564336855688]
Long Story Generation (LSG) は自然言語処理における目標の1つである。
短い入力を補完する高品質なスケルトン語を得るために,emphTopNetを提案する。
提案手法は骨格語選択に極めて有効であり, 自動評価と人的評価の両方において最先端のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-12-14T09:47:53Z) - STORIUM: A Dataset and Evaluation Platform for Machine-in-the-Loop Story
Generation [48.56586847883825]
我々は、オンラインのコラボレーティブなストーリーテリングコミュニティであるSTORiumから構築されたデータセットと評価プラットフォームを紹介した。
データセットには6Kの長編記事と、各物語に散在する詳細な自然言語アノテーションが含まれています。
我々は、STORiumにそれらを統合することで、データセット上で微調整された言語モデルを評価し、実際の著者は提案されたストーリーの継続をモデルに問い合わせ、編集することができる。
論文 参考訳(メタデータ) (2020-10-04T23:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。