論文の概要: A Confederacy of Models: a Comprehensive Evaluation of LLMs on Creative
Writing
- arxiv url: http://arxiv.org/abs/2310.08433v1
- Date: Thu, 12 Oct 2023 15:56:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 08:55:43.648432
- Title: A Confederacy of Models: a Comprehensive Evaluation of LLMs on Creative
Writing
- Title(参考訳): モデルの連合性:創造的執筆におけるLCMの包括的評価
- Authors: Carlos G\'omez-Rodr\'iguez and Paul Williams
- Abstract要約: 我々は、最近のLLMを、想像力、コヒーレンス、スタイルを必要とする難易度と複雑なタスクである、英語の創造的文章で評価する。
我々は、複数のLSMや人間に対して、そのような物語を書いて、独創性、ユーモア、スタイルといった様々な基準を含む人間の回避を行うよう依頼する。
以上の結果から、現在最先端の商用LLMは、ほとんどの面において、著者よりも若干優れていますが、オープンソースLLMは遅れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate a range of recent LLMs on English creative writing, a challenging
and complex task that requires imagination, coherence, and style. We use a
difficult, open-ended scenario chosen to avoid training data reuse: an epic
narration of a single combat between Ignatius J. Reilly, the protagonist of the
Pulitzer Prize-winning novel A Confederacy of Dunces (1980), and a pterodactyl,
a prehistoric flying reptile. We ask several LLMs and humans to write such a
story and conduct a human evalution involving various criteria such as fluency,
coherence, originality, humor, and style. Our results show that some
state-of-the-art commercial LLMs match or slightly outperform our writers in
most dimensions; whereas open-source LLMs lag behind. Humans retain an edge in
creativity, while humor shows a binary divide between LLMs that can handle it
comparably to humans and those that fail at it. We discuss the implications and
limitations of our study and suggest directions for future research.
- Abstract(参考訳): 我々は、英語の創造的執筆に関する近年のLLMについて、想像力、コヒーレンス、スタイルを必要とする困難で複雑なタスクを評価した。
ピューリッツァー賞受賞小説『ダンス連合』(1980年)の主人公であるイグナティウス・J・ライリー(Ignatius J. Reilly)と、先史時代の飛行甲虫類であるプテロダクティル(Pterodactyl)との1つの戦闘の叙事詩である。
我々は複数のllmと人間にそのような物語を書き、流血、コヒーレンス、独創性、ユーモア、スタイルといった様々な基準を含む人間の評価を行うように依頼する。
その結果、最先端の商用llmは、ほとんどの次元において、私たちのライターをわずかに上回るか、あるいは上回っていることが分かりました。
人間は創造性に限界を保ち、ユーモアは人間とそれで失敗する人間とを両立できるLDMを二分していることを示している。
本研究の意義と限界を議論し,今後の研究の方向性を提案する。
関連論文リスト
- Evaluating Creative Short Story Generation in Humans and Large Language Models [0.7965327033045846]
大規模言語モデル(LLM)は、最近、高品質なストーリーを生成する能力を実証した。
LLMと日常の人々の短いストーリー生成において,創造性を体系的に分析する。
LLMはスタイリスティックな複雑なストーリーを生成できるが、平均的な人間作家に比べて創造性は低い傾向にある。
論文 参考訳(メタデータ) (2024-11-04T17:40:39Z) - Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Assessing Language Models' Worldview for Fiction Generation [0.0]
本研究では,大言語モデルがフィクションの創出に不可欠な世界を維持する能力について考察する。
2つのモデルだけが一貫した世界観を示しており、残りは自己複製である。
このモデル間の統一性は、フィクションに必要な国家の欠如をさらに示唆している。
論文 参考訳(メタデータ) (2024-08-15T03:19:41Z) - Are Large Language Models Capable of Generating Human-Level Narratives? [114.34140090869175]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。
本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。
談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (2024-07-18T08:02:49Z) - Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing? [0.8999666725996975]
言語モデル(LLM)は、言語に関連した幅広いタスクにおいて、平均的な人間よりも優れています。
我々は,DeepBlue vs. Kasparov や AlphaGo vs. Lee Sidol といったAIと人間のデュエルの精神において,Patricio Pron と GPT-4 の対戦を行った。
結果は、LLMは人間のクリエイティブな作家に挑戦するほど遠くないことを示している。
論文 参考訳(メタデータ) (2024-07-01T09:28:58Z) - The Unlikely Duel: Evaluating Creative Writing in LLMs through a Unique Scenario [12.852843553759744]
我々は,最近の言語モデル(LLM)を,英語の創造的記述タスクに基づいて評価した。
Ignatius J. Reilly と pterodactyl のエピックな戦いに基づく)特殊に調整されたプロンプトを使用して、データの漏洩をトレーニングするリスクを最小限にする。
評価は、流派、スタイル、独創性、ユーモアといった様々な側面を含む詳細なルーリックを使用して人間によって行われる。
論文 参考訳(メタデータ) (2024-06-22T17:01:59Z) - HoLLMwood: Unleashing the Creativity of Large Language Models in Screenwriting via Role Playing [45.95600225239927]
大規模言語モデル(LLM)は、文学的な文章の複雑さが極めて高いため、人間の専門家のレベルで書かれた作品を作成することはほとんどできない。
本稿では,LLMの創造性を解放し,スクリーンライティングにおけるその可能性を探るためのフレームワークであるHoLLMwoodを紹介する。
論文 参考訳(メタデータ) (2024-06-17T16:01:33Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - In-Context Impersonation Reveals Large Language Models' Strengths and
Biases [56.61129643802483]
我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。
異なる年齢の子どものふりをしたLSMが、ヒトのような発達段階を回復することがわかった。
言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-24T09:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。