論文の概要: Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs
- arxiv url: http://arxiv.org/abs/2409.11547v1
- Date: Tue, 17 Sep 2024 20:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 19:49:52.798237
- Title: Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs
- Title(参考訳): 小言語モデルによる短い創造的文章作成における人間よりも優れる:SLMと人間とLLMの比較研究
- Authors: Guillermo Marco, Luz Rello, Julio Gonzalo,
- Abstract要約: 我々は、細調整された小言語モデル(SLM)、BART Largeの創作小説の執筆能力を評価し、その性能を人間と2つの大言語モデル(LLM)、GPT-3.5とGPT-4oと比較した。
- 参考スコア(独自算出の注目度): 0.9831489366502301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we evaluate the creative fiction writing abilities of a fine-tuned small language model (SLM), BART Large, and compare its performance to humans and two large language models (LLMs): GPT-3.5 and GPT-4o. Our evaluation consists of two experiments: (i) a human evaluation where readers assess the stories generated by the SLM compared to human-written stories, and (ii) a qualitative linguistic analysis comparing the textual characteristics of the stories generated by the different models. In the first experiment, we asked 68 participants to rate short stories generated by the models and humans along dimensions such as grammaticality, relevance, creativity, and attractiveness. BART Large outperformed human writers in most aspects, except creativity, with an overall score of 2.11 compared to 1.85 for human-written texts -- a 14% improvement. In the second experiment, the qualitative analysis revealed that, while GPT-4o exhibited near-perfect internal and external coherence, it tended to produce more predictable narratives, with only 3% of its stories seen as novel. In contrast, 15% of BART's stories were considered novel, indicating a higher degree of creativity despite its smaller model size. This study provides both quantitative and qualitative insights into how model size and fine-tuning influence the balance between creativity, fluency, and coherence in creative writing tasks.
- Abstract(参考訳): 本稿では、細調整された小言語モデル(SLM)、BART Largeの創作創作能力を評価し、その性能を人間と2つの大言語モデル(LLM)、GPT-3.5とGPT-4oと比較する。
評価は2つの実験から成っている。
一 読者がSLMで生み出した物語を人書きの物語と比較して評価する人的評価、及び
(二)異なるモデルにより生成された物語のテクスト的特徴を比較する定性的な言語分析。
最初の実験では、68人の参加者に、文法性、妥当性、創造性、魅力といった次元に沿ってモデルと人間によって生成された短いストーリーを評価するように頼みました。
BARTはクリエイティビティを除くほとんどの面で人文作家より優れており、全体のスコアは2.11で、人文テキストは1.85で、改善は14%だった。
第2の実験では、GPT-4oは内部と外部のコヒーレンスにほぼ完全であるにもかかわらず、より予測可能な物語を産み出す傾向にあり、物語のわずか3%が小説と見なされている。
対照的に、BARTの物語の15%は新しいものと考えられており、モデルのサイズが小さいにもかかわらず創造性が高いことを示している。
この研究は、モデルのサイズと微調整が創造性、流布性、コヒーレンスの間のバランスにどのように影響するかに関する定量的および定性的な洞察を提供する。
関連論文リスト
- Evaluating Creative Short Story Generation in Humans and Large Language Models [0.7965327033045846]
大規模言語モデル(LLM)は、最近、高品質なストーリーを生成する能力を実証した。
LLMと日常の人々の短いストーリー生成において,創造性を体系的に分析する。
LLMはスタイリスティックな複雑なストーリーを生成できるが、平均的な人間作家に比べて創造性は低い傾向にある。
論文 参考訳(メタデータ) (2024-11-04T17:40:39Z) - A Character-Centric Creative Story Generation via Imagination [15.345466372805516]
我々はCCI(Character-centric Creative Story Generation via Imagination)と呼ばれる新しいストーリー生成フレームワークを紹介する。
CCIは創造的ストーリー生成のための2つのモジュール、IG(Image-Guided Imagination)とMW(Multi-Writer model)を備えている。
IGモジュールでは,文字や背景,メインプロットといった重要なストーリー要素を視覚的に表現するために,テキスト・ツー・イメージモデルを利用する。
MWモジュールはこれらのストーリー要素を使用して複数のペルソナ記述候補を生成し、ストーリーに挿入する最適なストーリーを選択することにより、物語の豊かさと深さを高める。
論文 参考訳(メタデータ) (2024-09-25T06:54:29Z) - MirrorStories: Reflecting Diversity through Personalized Narrative Generation with Large Language Models [5.397565689903148]
本研究では,パーソナライズされた「ミラーストーリー」作成におけるLarge Language Models(LLM)の有効性について検討する。
ミラーストリーズ(MirrorStories)は、名前、性別、年齢、民族性、読者の興味、ストーリーモラルといった要素を統合した1500のパーソナライズされた短編小説のコーパスである。
論文 参考訳(メタデータ) (2024-09-20T22:43:13Z) - Are Large Language Models Capable of Generating Human-Level Narratives? [114.34140090869175]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。
本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。
談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (2024-07-18T08:02:49Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - Measuring Psychological Depth in Language Models [50.48914935872879]
本稿では,文学理論に根ざした新たな枠組みである心理的深度尺度(PDS)を紹介する。
PDS(0.72 クリッペンドルフのα)に基づいて人間が一貫して物語を評価できることを示し、我々の枠組みを実証的に検証する。
驚いたことに、GPT-4のストーリーはRedditから入手した高評価の人文記事と統計的に区別できない。
論文 参考訳(メタデータ) (2024-06-18T14:51:54Z) - Art or Artifice? Large Language Models and the False Promise of
Creativity [53.04834589006685]
本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。
TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。
分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3~10倍少ないことが判明した。
論文 参考訳(メタデータ) (2023-09-25T22:02:46Z) - The Next Chapter: A Study of Large Language Models in Storytelling [51.338324023617034]
大規模言語モデル(LLM)を用いたプロンプトベース学習の適用は,自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では,LLMのストーリー生成能力と最近のモデルを比較するために,自動評価と人的評価の両方を利用した総合的な調査を行う。
その結果、LLMは他のストーリー生成モデルと比較して、非常に高い品質のストーリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-01-24T02:44:02Z) - Computational Lens on Cognition: Study Of Autobiographical Versus
Imagined Stories With Large-Scale Language Models [95.88620740809004]
GPT-3を用いた自伝的物語と想像的物語における出来事の物語の流れの相違について検討した。
想像された物語は自伝的物語よりも逐次性が高いことがわかった。
想像された物語と比較すると、自伝的な物語は、最初の人物に関連するより具体的な言葉と単語を含んでいる。
論文 参考訳(メタデータ) (2022-01-07T20:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。