Fugu-MT 論文翻訳(概要): Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs

論文の概要: Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs

arxiv url: http://arxiv.org/abs/2409.11547v1
Date: Tue, 17 Sep 2024 20:40:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-19 19:49:52.798237
Title: Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs
Title（参考訳）: 小言語モデルによる短い創造的文章作成における人間よりも優れる:SLMと人間とLLMの比較研究
Authors: Guillermo Marco, Luz Rello, Julio Gonzalo,
Abstract要約: 我々は、細調整された小言語モデル(SLM)、BART Largeの創作小説の執筆能力を評価し、その性能を人間と2つの大言語モデル(LLM)、GPT-3.5とGPT-4oと比較した。
参考スコア（独自算出の注目度）: 0.9831489366502301
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we evaluate the creative fiction writing abilities of a fine-tuned small language model (SLM), BART Large, and compare its performance to humans and two large language models (LLMs): GPT-3.5 and GPT-4o. Our evaluation consists of two experiments: (i) a human evaluation where readers assess the stories generated by the SLM compared to human-written stories, and (ii) a qualitative linguistic analysis comparing the textual characteristics of the stories generated by the different models. In the first experiment, we asked 68 participants to rate short stories generated by the models and humans along dimensions such as grammaticality, relevance, creativity, and attractiveness. BART Large outperformed human writers in most aspects, except creativity, with an overall score of 2.11 compared to 1.85 for human-written texts -- a 14% improvement. In the second experiment, the qualitative analysis revealed that, while GPT-4o exhibited near-perfect internal and external coherence, it tended to produce more predictable narratives, with only 3% of its stories seen as novel. In contrast, 15% of BART's stories were considered novel, indicating a higher degree of creativity despite its smaller model size. This study provides both quantitative and qualitative insights into how model size and fine-tuning influence the balance between creativity, fluency, and coherence in creative writing tasks.
Abstract（参考訳）: 本稿では、細調整された小言語モデル(SLM)、BART Largeの創作創作能力を評価し、その性能を人間と2つの大言語モデル(LLM)、GPT-3.5とGPT-4oと比較する。評価は2つの実験から成っている。一読者がSLMで生み出した物語を人書きの物語と比較して評価する人的評価、及び (二)異なるモデルにより生成された物語のテクスト的特徴を比較する定性的な言語分析。最初の実験では、68人の参加者に、文法性、妥当性、創造性、魅力といった次元に沿ってモデルと人間によって生成された短いストーリーを評価するように頼みました。 BARTはクリエイティビティを除くほとんどの面で人文作家より優れており、全体のスコアは2.11で、人文テキストは1.85で、改善は14%だった。第2の実験では、GPT-4oは内部と外部のコヒーレンスにほぼ完全であるにもかかわらず、より予測可能な物語を産み出す傾向にあり、物語のわずか3%が小説と見なされている。対照的に、BARTの物語の15%は新しいものと考えられており、モデルのサイズが小さいにもかかわらず創造性が高いことを示している。この研究は、モデルのサイズと微調整が創造性、流布性、コヒーレンスの間のバランスにどのように影響するかに関する定量的および定性的な洞察を提供する。

関連論文リスト

Evaluating Creative Short Story Generation in Humans and Large Language Models [0.7965327033045846]
大規模言語モデル(LLM)は、最近、高品質なストーリーを生成する能力を実証した。 LLMと日常の人々の短いストーリー生成において,創造性を体系的に分析する。 LLMはスタイリスティックな複雑なストーリーを生成できるが、平均的な人間作家に比べて創造性は低い傾向にある。
論文参考訳（メタデータ） (2024-11-04T17:40:39Z)
Causal Micro-Narratives [62.47217054314046]
テキストから因果マイクロナラティブを分類する新しい手法を提案する。これらの物語は、対象対象の因果関係と/または効果の文レベルの説明である。
論文参考訳（メタデータ） (2024-10-07T17:55:10Z)
AI as Humanity's Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text [53.15652021126663]
本稿では、テキストの言語的創造性を定量化する第一歩として、CREATIVITY INDEXを提案する。 CREATIVITY INDEXを効率的に計算するために,新しい動的プログラミングアルゴリズムであるDJ SEARCHを導入する。実験の結果、プロの人間作家のCreativity INDEXはLLMよりも平均66.2%高いことが判明した。
論文参考訳（メタデータ） (2024-10-05T18:55:01Z)
A Character-Centric Creative Story Generation via Imagination [15.345466372805516]
我々はCCI(Character-centric Creative Story Generation via Imagination)と呼ばれる新しいストーリー生成フレームワークを紹介する。 CCIは創造的ストーリー生成のための2つのモジュール、IG(Image-Guided Imagination)とMW(Multi-Writer model)を備えている。 IGモジュールでは,文字や背景,メインプロットといった重要なストーリー要素を視覚的に表現するために,テキスト・ツー・イメージモデルを利用する。 MWモジュールはこれらのストーリー要素を使用して複数のペルソナ記述候補を生成し、ストーリーに挿入する最適なストーリーを選択することにより、物語の豊かさと深さを高める。
論文参考訳（メタデータ） (2024-09-25T06:54:29Z)
MirrorStories: Reflecting Diversity through Personalized Narrative Generation with Large Language Models [5.397565689903148]
本研究では,パーソナライズされた「ミラーストーリー」作成におけるLarge Language Models(LLM)の有効性について検討する。ミラーストリーズ(MirrorStories)は、名前、性別、年齢、民族性、読者の興味、ストーリーモラルといった要素を統合した1500のパーソナライズされた短編小説のコーパスである。
論文参考訳（メタデータ） (2024-09-20T22:43:13Z)
Are Large Language Models Capable of Generating Human-Level Narratives? [114.34140090869175]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文参考訳（メタデータ） (2024-07-18T08:02:49Z)
Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文参考訳（メタデータ） (2024-06-27T19:26:11Z)
Measuring Psychological Depth in Language Models [50.48914935872879]
本稿では,文学理論に根ざした新たな枠組みである心理的深度尺度(PDS)を紹介する。 PDS(0.72 クリッペンドルフのα)に基づいて人間が一貫して物語を評価できることを示し、我々の枠組みを実証的に検証する。驚いたことに、GPT-4のストーリーはRedditから入手した高評価の人文記事と統計的に区別できない。
論文参考訳（メタデータ） (2024-06-18T14:51:54Z)
Probing the Creativity of Large Language Models: Can models produce divergent semantic association? [9.992602859777689]
本研究では,認知的視点から大規模言語モデルの創造的思考を研究することを目的とする。本研究では、モデルに無関係な単語を生成し、それらの間の意味的距離を計算するための創造性を客観的に測定する散発的アソシエーションタスク(DAT)を利用する。以上の結果から,先進的な大規模言語モデルには,創造性の基礎となる基本的なプロセスである意味的関連性が存在することが示唆された。
論文参考訳（メタデータ） (2023-10-17T11:23:32Z)
Art or Artifice? Large Language Models and the False Promise of Creativity [53.04834589006685]
本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。 TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3～10倍少ないことが判明した。
論文参考訳（メタデータ） (2023-09-25T22:02:46Z)
Do Large Language Models Show Decision Heuristics Similar to Humans? A Case Study Using GPT-3.5 [0.0]
GPT-3.5は、ChatGPTと呼ばれる会話エージェントをサポートするLLMの例である。本研究では,ChatGPTがバイアスを示すか,その他の決定効果を示すかを決定するために,一連の新しいプロンプトを用いた。また、同じプロンプトをヒトでもテストしました。
論文参考訳（メタデータ） (2023-05-08T01:02:52Z)
AI, write an essay for me: A large-scale comparison of human-written versus ChatGPT-generated essays [66.36541161082856]
ChatGPTや同様の生成AIモデルは、何億人ものユーザーを惹きつけている。本研究は,ChatGPTが生成した議論的学生エッセイと比較した。
論文参考訳（メタデータ） (2023-04-24T12:58:28Z)
Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。 ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文参考訳（メタデータ） (2023-03-28T17:04:15Z)
The Next Chapter: A Study of Large Language Models in Storytelling [51.338324023617034]
大規模言語モデル(LLM)を用いたプロンプトベース学習の適用は,自然言語処理(NLP)タスクにおいて顕著な性能を示した。本稿では,LLMのストーリー生成能力と最近のモデルを比較するために,自動評価と人的評価の両方を利用した総合的な調査を行う。その結果、LLMは他のストーリー生成モデルと比較して、非常に高い品質のストーリーを生成することがわかった。
論文参考訳（メタデータ） (2023-01-24T02:44:02Z)
Computational Lens on Cognition: Study Of Autobiographical Versus Imagined Stories With Large-Scale Language Models [95.88620740809004]
GPT-3を用いた自伝的物語と想像的物語における出来事の物語の流れの相違について検討した。想像された物語は自伝的物語よりも逐次性が高いことがわかった。想像された物語と比較すると、自伝的な物語は、最初の人物に関連するより具体的な言葉と単語を含んでいる。
論文参考訳（メタデータ） (2022-01-07T20:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。