論文の概要: Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs
- arxiv url: http://arxiv.org/abs/2409.11547v2
- Date: Mon, 13 Jan 2025 15:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:29:11.356705
- Title: Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs
- Title(参考訳): 小言語モデルによる短い創造的文章作成における人間よりも優れる:SLMと人間とLLMの比較研究
- Authors: Guillermo Marco, Luz Rello, Julio Gonzalo,
- Abstract要約: GPT-3.5 と GPT-4o の2つの大規模言語モデル (LLM) について,細調整された小言語モデル (SLM) とBART-large,および2つの大規模言語モデル (LLM) の創作的創作能力を評価する。
- 参考スコア(独自算出の注目度): 0.9831489366502301
- License:
- Abstract: In this paper, we evaluate the creative fiction writing abilities of a fine-tuned small language model (SLM), BART-large, and compare its performance to human writers and two large language models (LLMs): GPT-3.5 and GPT-4o. Our evaluation consists of two experiments: (i) a human study in which 68 participants rated short stories from humans and the SLM on grammaticality, relevance, creativity, and attractiveness, and (ii) a qualitative linguistic analysis examining the textual characteristics of stories produced by each model. In the first experiment, BART-large outscored average human writers overall (2.11 vs. 1.85), a 14% relative improvement, though the slight human advantage in creativity was not statistically significant. In the second experiment, qualitative analysis showed that while GPT-4o demonstrated near-perfect coherence and used less cliche phrases, it tended to produce more predictable language, with only 3% of its synopses featuring surprising associations (compared to 15% for BART). These findings highlight how model size and fine-tuning influence the balance between creativity, fluency, and coherence in creative writing tasks, and demonstrate that smaller models can, in certain contexts, rival both humans and larger models.
- Abstract(参考訳): 本稿では,細調整小言語モデル(SLM)であるBART-large(BART-large)の創作的創作能力を評価し,その性能を人文作家と2つの大言語モデル(LLM)であるGPT-3.5とGPT-4oと比較する。
評価は2つの実験から成っている。
一 68人の参加者が、文法性、関連性、創造性、魅力について、人間及びSLMの短編を評価した研究
(2)各モデルが生成した物語のテクスト的特徴を質的言語学的に分析する。
最初の実験では、BART-largeは平均的な人間作家(2.11対1.85)よりも14%向上したが、創造性における人間の優位性は統計的に有意ではなかった。
第2の実験では、GPT-4oがほぼ完全コヒーレンスを示し、クリッキーフレーズをあまり使用しなかったが、驚くべき関連性(BARTでは15%)を特徴とするシナプスのわずか3%が予測可能な言語を生成する傾向にあった。
これらの知見は、モデルのサイズと微調整が創造的記述タスクにおける創造性、流布性、一貫性のバランスにどのように影響するかを示し、より小さなモデルが、ある文脈において、人間と大きなモデルの両方に対抗できることを示した。
関連論文リスト
- Evaluating Creative Short Story Generation in Humans and Large Language Models [0.7965327033045846]
大規模言語モデル(LLM)は、最近、高品質なストーリーを生成する能力を実証した。
LLMと日常の人々の短いストーリー生成において,創造性を体系的に分析する。
LLMはスタイリスティックな複雑なストーリーを生成できるが、平均的な人間作家に比べて創造性は低い傾向にある。
論文 参考訳(メタデータ) (2024-11-04T17:40:39Z) - Causal Micro-Narratives [62.47217054314046]
テキストから因果マイクロナラティブを分類する新しい手法を提案する。
これらの物語は、対象対象の因果関係と/または効果の文レベルの説明である。
論文 参考訳(メタデータ) (2024-10-07T17:55:10Z) - AI as Humanity's Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text [53.15652021126663]
本稿では、テキストの言語的創造性を定量化する第一歩として、CREATIVITY INDEXを提案する。
CREATIVITY INDEXを効率的に計算するために,新しい動的プログラミングアルゴリズムであるDJ SEARCHを導入する。
実験の結果、プロの人間作家のCreativity INDEXはLLMよりも平均66.2%高いことが判明した。
論文 参考訳(メタデータ) (2024-10-05T18:55:01Z) - MirrorStories: Reflecting Diversity through Personalized Narrative Generation with Large Language Models [5.397565689903148]
本研究では,パーソナライズされた「ミラーストーリー」作成におけるLarge Language Models(LLM)の有効性について検討する。
ミラーストリーズ(MirrorStories)は、名前、性別、年齢、民族性、読者の興味、ストーリーモラルといった要素を統合した1500のパーソナライズされた短編小説のコーパスである。
論文 参考訳(メタデータ) (2024-09-20T22:43:13Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - Probing the Creativity of Large Language Models: Can models produce
divergent semantic association? [9.992602859777689]
本研究では,認知的視点から大規模言語モデルの創造的思考を研究することを目的とする。
本研究では、モデルに無関係な単語を生成し、それらの間の意味的距離を計算するための創造性を客観的に測定する散発的アソシエーションタスク(DAT)を利用する。
以上の結果から,先進的な大規模言語モデルには,創造性の基礎となる基本的なプロセスである意味的関連性が存在することが示唆された。
論文 参考訳(メタデータ) (2023-10-17T11:23:32Z) - Do Large Language Models Show Decision Heuristics Similar to Humans? A
Case Study Using GPT-3.5 [0.0]
GPT-3.5は、ChatGPTと呼ばれる会話エージェントをサポートするLLMの例である。
本研究では,ChatGPTがバイアスを示すか,その他の決定効果を示すかを決定するために,一連の新しいプロンプトを用いた。
また、同じプロンプトをヒトでもテストしました。
論文 参考訳(メタデータ) (2023-05-08T01:02:52Z) - AI, write an essay for me: A large-scale comparison of human-written
versus ChatGPT-generated essays [66.36541161082856]
ChatGPTや同様の生成AIモデルは、何億人ものユーザーを惹きつけている。
本研究は,ChatGPTが生成した議論的学生エッセイと比較した。
論文 参考訳(メタデータ) (2023-04-24T12:58:28Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - The Next Chapter: A Study of Large Language Models in Storytelling [51.338324023617034]
大規模言語モデル(LLM)を用いたプロンプトベース学習の適用は,自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では,LLMのストーリー生成能力と最近のモデルを比較するために,自動評価と人的評価の両方を利用した総合的な調査を行う。
その結果、LLMは他のストーリー生成モデルと比較して、非常に高い品質のストーリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-01-24T02:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。