論文の概要: The Unlikely Duel: Evaluating Creative Writing in LLMs through a Unique Scenario
- arxiv url: http://arxiv.org/abs/2406.15891v1
- Date: Sat, 22 Jun 2024 17:01:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 20:03:15.653326
- Title: The Unlikely Duel: Evaluating Creative Writing in LLMs through a Unique Scenario
- Title(参考訳): 異例のデュエル:ユニークなシナリオによるLCMの創造的記述の評価
- Authors: Carlos Gómez-Rodríguez, Paul Williams,
- Abstract要約: 我々は,最近の言語モデル(LLM)を,英語の創造的記述タスクに基づいて評価した。
Ignatius J. Reilly と pterodactyl のエピックな戦いに基づく)特殊に調整されたプロンプトを使用して、データの漏洩をトレーニングするリスクを最小限にする。
評価は、流派、スタイル、独創性、ユーモアといった様々な側面を含む詳細なルーリックを使用して人間によって行われる。
- 参考スコア(独自算出の注目度): 12.852843553759744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This is a summary of the paper "A Confederacy of Models: a Comprehensive Evaluation of LLMs on Creative Writing", which was published in Findings of EMNLP 2023. We evaluate a range of recent state-of-the-art, instruction-tuned large language models (LLMs) on an English creative writing task, and compare them to human writers. For this purpose, we use a specifically-tailored prompt (based on an epic combat between Ignatius J. Reilly, main character of John Kennedy Toole's "A Confederacy of Dunces", and a pterodactyl) to minimize the risk of training data leakage and force the models to be creative rather than reusing existing stories. The same prompt is presented to LLMs and human writers, and evaluation is performed by humans using a detailed rubric including various aspects like fluency, style, originality or humor. Results show that some state-of-the-art commercial LLMs match or slightly outperform our human writers in most of the evaluated dimensions. Open-source LLMs lag behind. Humans keep a close lead in originality, and only the top three LLMs can handle humor at human-like levels.
- Abstract(参考訳): A Confederacy of Models: a Comprehensive Evaluation of LLMs on Creative Writing”は、EMNLP 2023のファインディングスに掲載されている。
我々は、英語のクリエイティブ・ライティング・タスクにおいて、最新の最先端、命令調整型大規模言語モデル(LLM)について評価し、それらをヒトのライターと比較した。
この目的のために、我々は特別に調整されたプロンプト(ジョン・ケネディ・トゥール(John Kennedy Toole)の"A Confederacy of Dunces"の主人公であるイグナティウス・J・ライリー(Ignatius J. Reilly)とプテロダクティル(Pterodactyl)とのエピックな戦いに基づく)を使用して、データ漏洩のトレーニングのリスクを最小化し、既存のストーリーを再利用するのではなく、モデルが創造的になるように強制する。
同様のプロンプトがLLMやヒューマンライターに提示され、フレンチ、スタイル、独創性、ユーモアといった様々な側面を含む詳細なルーリックを使用して人間によって評価される。
その結果、現在最先端の商用LCMは、評価されたほとんどの次元において、人間のライターよりも若干優れています。
オープンソースのLLMは遅れを取っている。
人間は独創性を強く保ち、トップ3のLSMだけが人間のようなレベルでユーモアを扱える。
関連論文リスト
- Are Large Language Models Capable of Generating Human-Level Narratives? [114.34140090869175]
本稿ではストーリーテリングにおけるLLMの能力について考察し,物語の展開とプロットの進行に着目した。
本稿では,3つの談話レベルの側面から物語を分析するための新しい計算フレームワークを提案する。
談話機能の明示的な統合は、ニューラルストーリーテリングの40%以上の改善によって示されるように、ストーリーテリングを促進することができることを示す。
論文 参考訳(メタデータ) (2024-07-18T08:02:49Z) - Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing? [0.8999666725996975]
言語モデル(LLM)は、言語に関連した幅広いタスクにおいて、平均的な人間よりも優れています。
我々は,DeepBlue vs. Kasparov や AlphaGo vs. Lee Sidol といったAIと人間のデュエルの精神において,Patricio Pron と GPT-4 の対戦を行った。
結果は、LLMは人間のクリエイティブな作家に挑戦するほど遠くないことを示している。
論文 参考訳(メタデータ) (2024-07-01T09:28:58Z) - HoLLMwood: Unleashing the Creativity of Large Language Models in Screenwriting via Role Playing [45.95600225239927]
大規模言語モデル(LLM)は、文学的な文章の複雑さが極めて高いため、人間の専門家のレベルで書かれた作品を作成することはほとんどできない。
本稿では,LLMの創造性を解放し,スクリーンライティングにおけるその可能性を探るためのフレームワークであるHoLLMwoodを紹介する。
論文 参考訳(メタデータ) (2024-06-17T16:01:33Z) - Do Language Models Enjoy Their Own Stories? Prompting Large Language Models for Automatic Story Evaluation [15.718288693929019]
大規模言語モデル(LLM)は多くのNLPタスクで最先端のパフォーマンスを達成する。
LLMがヒトアノテーターの代用として使用できるかどうかを検討した。
LLMはシステムレベルの評価において,現在の自動測定値よりも優れていますが,十分な説明が得られていないことが分かりました。
論文 参考訳(メタデータ) (2024-05-22T15:56:52Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - Character is Destiny: Can Large Language Models Simulate Persona-Driven Decisions in Role-Playing? [59.0123596591807]
ペルソナ駆動意思決定における大規模言語モデルの能力のベンチマークを行う。
高品質な小説において, LLM が先行する物語の登場人物の判断を予測できるかどうかを考察する。
その結果、現状のLLMは、このタスクに有望な能力を示すが、改善の余地は十分にあることが示された。
論文 参考訳(メタデータ) (2024-04-18T12:40:59Z) - A Confederacy of Models: a Comprehensive Evaluation of LLMs on Creative
Writing [0.0]
我々は、最近のLLMを、想像力、コヒーレンス、スタイルを必要とする難易度と複雑なタスクである、英語の創造的文章で評価する。
我々は、複数のLSMや人間に対して、そのような物語を書いて、独創性、ユーモア、スタイルといった様々な基準を含む人間の回避を行うよう依頼する。
以上の結果から、現在最先端の商用LLMは、ほとんどの面において、著者よりも若干優れていますが、オープンソースLLMは遅れています。
論文 参考訳(メタデータ) (2023-10-12T15:56:24Z) - In-Context Impersonation Reveals Large Language Models' Strengths and
Biases [56.61129643802483]
我々は、視覚と言語タスクを解く前に、LLMに異なるペルソナを仮定するよう依頼する。
異なる年齢の子どものふりをしたLSMが、ヒトのような発達段階を回復することがわかった。
言語に基づく推論タスクでは、ドメインエキスパートを装うLLMが、ドメイン専門家を装うLLMよりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-05-24T09:13:15Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。