論文の概要: Reading Subtext: Evaluating Large Language Models on Short Story
Summarization with Writers
- arxiv url: http://arxiv.org/abs/2403.01061v1
- Date: Sat, 2 Mar 2024 01:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:28:33.714351
- Title: Reading Subtext: Evaluating Large Language Models on Short Story
Summarization with Writers
- Title(参考訳): サブテキストを読む:著者による短編要約による大規模言語モデルの評価
- Authors: Melanie Subbiah, Sean Zhang, Lydia B. Chilton, Kathleen McKeown
- Abstract要約: 我々は,最近のLarge Language Models (LLMs) について,短いストーリーを要約する難しい課題について評価する。
私たちは著者と直接協力して、ストーリーがオンラインで共有されていないことを保証しています(従ってモデルによって見つからないのです)。
GPT-4、Claude-2.1、LLama-2-70Bを比較し、全3モデルが50%以上の要約で忠実さの誤りを犯していることを発見した。
- 参考スコア(独自算出の注目度): 27.604249661275713
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We evaluate recent Large language Models (LLMs) on the challenging task of
summarizing short stories, which can be lengthy, and include nuanced subtext or
scrambled timelines. Importantly, we work directly with authors to ensure that
the stories have not been shared online (and therefore are unseen by the
models), and to obtain informed evaluations of summary quality using judgments
from the authors themselves. Through quantitative and qualitative analysis
grounded in narrative theory, we compare GPT-4, Claude-2.1, and LLama-2-70B. We
find that all three models make faithfulness mistakes in over 50% of summaries
and struggle to interpret difficult subtext. However, at their best, the models
can provide thoughtful thematic analysis of stories. We additionally
demonstrate that LLM judgments of summary quality do not match the feedback
from the writers.
- Abstract(参考訳): 近年の大規模言語モデル(llms)において,長文化やニュアンス付きサブテキストやスクランブル付きタイムラインを含む短文要約の課題について評価を行った。
重要なことは、著者たちと直接協力して、ストーリーがオンラインに共有されていないこと(従ってモデルには見えない)を確認し、著者自身による判断を用いて要約品質のインフォームド評価を得る。
GPT-4, Claude-2.1, LLama-2-70Bの比較を行った。
3つのモデルはすべて、要約の50%以上で忠実さの誤りを犯し、難しい文を解釈するのに苦労している。
しかし、最善を尽くして、モデルはストーリーの思慮深いテーマ分析を提供することができる。
さらに,要約品質のllm判断は,著者からのフィードバックと一致しないことを示す。
関連論文リスト
- Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation [23.14419851509905]
言語間の時間的相互要約は、文化間のアクセシビリティと理解を改善する可能性がある。
われわれはCLCTSコーパスを初めて構築し、英語とドイツ語の歴史的文章とウィキペディアの要約を活用している。
本稿では,人間,ChatGPT,および最近の自動評価指標について報告する。
論文 参考訳(メタデータ) (2023-06-22T14:31:18Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z) - The Next Chapter: A Study of Large Language Models in Storytelling [51.338324023617034]
大規模言語モデル(LLM)を用いたプロンプトベース学習の適用は,自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では,LLMのストーリー生成能力と最近のモデルを比較するために,自動評価と人的評価の両方を利用した総合的な調査を行う。
その結果、LLMは他のストーリー生成モデルと比較して、非常に高い品質のストーリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-01-24T02:44:02Z) - Analyzing and Evaluating Faithfulness in Dialogue Summarization [67.07947198421421]
まず,対話要約の忠実度に関するきめ細かな人間の分析を行い,生成した要約の35%以上がソース対話に忠実に一致していないことを観察する。
そこで本研究では,ルールベース変換により生成した複数選択質問を用いたモデルレベルの忠実度評価手法を提案する。
論文 参考訳(メタデータ) (2022-10-21T07:22:43Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。