論文の概要: Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs
- arxiv url: http://arxiv.org/abs/2409.11547v1
- Date: Tue, 17 Sep 2024 20:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 19:49:52.798237
- Title: Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs
- Title(参考訳): 小言語モデルによる短い創造的文章作成における人間よりも優れる:SLMと人間とLLMの比較研究
- Authors: Guillermo Marco, Luz Rello, Julio Gonzalo,
- Abstract要約: 我々は、細調整された小言語モデル(SLM)、BART Largeの創作小説の執筆能力を評価し、その性能を人間と2つの大言語モデル(LLM)、GPT-3.5とGPT-4oと比較した。
- 参考スコア(独自算出の注目度): 0.9831489366502301
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we evaluate the creative fiction writing abilities of a fine-tuned small language model (SLM), BART Large, and compare its performance to humans and two large language models (LLMs): GPT-3.5 and GPT-4o. Our evaluation consists of two experiments: (i) a human evaluation where readers assess the stories generated by the SLM compared to human-written stories, and (ii) a qualitative linguistic analysis comparing the textual characteristics of the stories generated by the different models. In the first experiment, we asked 68 participants to rate short stories generated by the models and humans along dimensions such as grammaticality, relevance, creativity, and attractiveness. BART Large outperformed human writers in most aspects, except creativity, with an overall score of 2.11 compared to 1.85 for human-written texts -- a 14% improvement. In the second experiment, the qualitative analysis revealed that, while GPT-4o exhibited near-perfect internal and external coherence, it tended to produce more predictable narratives, with only 3% of its stories seen as novel. In contrast, 15% of BART's stories were considered novel, indicating a higher degree of creativity despite its smaller model size. This study provides both quantitative and qualitative insights into how model size and fine-tuning influence the balance between creativity, fluency, and coherence in creative writing tasks.
- Abstract(参考訳): 本稿では、細調整された小言語モデル(SLM)、BART Largeの創作創作能力を評価し、その性能を人間と2つの大言語モデル(LLM)、GPT-3.5とGPT-4oと比較する。
評価は2つの実験から成っている。
一 読者がSLMで生み出した物語を人書きの物語と比較して評価する人的評価、及び
(二)異なるモデルにより生成された物語のテクスト的特徴を比較する定性的な言語分析。
最初の実験では、68人の参加者に、文法性、妥当性、創造性、魅力といった次元に沿ってモデルと人間によって生成された短いストーリーを評価するように頼みました。
BARTはクリエイティビティを除くほとんどの面で人文作家より優れており、全体のスコアは2.11で、人文テキストは1.85で、改善は14%だった。
第2の実験では、GPT-4oは内部と外部のコヒーレンスにほぼ完全であるにもかかわらず、より予測可能な物語を産み出す傾向にあり、物語のわずか3%が小説と見なされている。
対照的に、BARTの物語の15%は新しいものと考えられており、モデルのサイズが小さいにもかかわらず創造性が高いことを示している。
この研究は、モデルのサイズと微調整が創造性、流布性、コヒーレンスの間のバランスにどのように影響するかに関する定量的および定性的な洞察を提供する。
関連論文リスト
- Evaluating Creative Short Story Generation in Humans and Large Language Models [0.7965327033045846]
大規模言語モデル(LLM)は、最近、高品質なストーリーを生成する能力を実証した。
LLMと日常の人々の短いストーリー生成において,創造性を体系的に分析する。
LLMはスタイリスティックな複雑なストーリーを生成できるが、平均的な人間作家に比べて創造性は低い傾向にある。
論文 参考訳(メタデータ) (2024-11-04T17:40:39Z) - Causal Micro-Narratives [62.47217054314046]
テキストから因果マイクロナラティブを分類する新しい手法を提案する。
これらの物語は、対象対象の因果関係と/または効果の文レベルの説明である。
論文 参考訳(メタデータ) (2024-10-07T17:55:10Z) - AI as Humanity's Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text [53.15652021126663]
本稿では、テキストの言語的創造性を定量化する第一歩として、CREATIVITY INDEXを提案する。
CREATIVITY INDEXを効率的に計算するために,新しい動的プログラミングアルゴリズムであるDJ SEARCHを導入する。
実験の結果、プロの人間作家のCreativity INDEXはLLMよりも平均66.2%高いことが判明した。
論文 参考訳(メタデータ) (2024-10-05T18:55:01Z) - MirrorStories: Reflecting Diversity through Personalized Narrative Generation with Large Language Models [5.397565689903148]
本研究では,パーソナライズされた「ミラーストーリー」作成におけるLarge Language Models(LLM)の有効性について検討する。
ミラーストリーズ(MirrorStories)は、名前、性別、年齢、民族性、読者の興味、ストーリーモラルといった要素を統合した1500のパーソナライズされた短編小説のコーパスである。
論文 参考訳(メタデータ) (2024-09-20T22:43:13Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - Probing the Creativity of Large Language Models: Can models produce
divergent semantic association? [9.992602859777689]
本研究では,認知的視点から大規模言語モデルの創造的思考を研究することを目的とする。
本研究では、モデルに無関係な単語を生成し、それらの間の意味的距離を計算するための創造性を客観的に測定する散発的アソシエーションタスク(DAT)を利用する。
以上の結果から,先進的な大規模言語モデルには,創造性の基礎となる基本的なプロセスである意味的関連性が存在することが示唆された。
論文 参考訳(メタデータ) (2023-10-17T11:23:32Z) - Do Large Language Models Show Decision Heuristics Similar to Humans? A
Case Study Using GPT-3.5 [0.0]
GPT-3.5は、ChatGPTと呼ばれる会話エージェントをサポートするLLMの例である。
本研究では,ChatGPTがバイアスを示すか,その他の決定効果を示すかを決定するために,一連の新しいプロンプトを用いた。
また、同じプロンプトをヒトでもテストしました。
論文 参考訳(メタデータ) (2023-05-08T01:02:52Z) - AI, write an essay for me: A large-scale comparison of human-written
versus ChatGPT-generated essays [66.36541161082856]
ChatGPTや同様の生成AIモデルは、何億人ものユーザーを惹きつけている。
本研究は,ChatGPTが生成した議論的学生エッセイと比較した。
論文 参考訳(メタデータ) (2023-04-24T12:58:28Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - The Next Chapter: A Study of Large Language Models in Storytelling [51.338324023617034]
大規模言語モデル(LLM)を用いたプロンプトベース学習の適用は,自然言語処理(NLP)タスクにおいて顕著な性能を示した。
本稿では,LLMのストーリー生成能力と最近のモデルを比較するために,自動評価と人的評価の両方を利用した総合的な調査を行う。
その結果、LLMは他のストーリー生成モデルと比較して、非常に高い品質のストーリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-01-24T02:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。