論文の概要: Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing?
- arxiv url: http://arxiv.org/abs/2407.01119v2
- Date: Mon, 28 Oct 2024 16:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:18:33.033729
- Title: Pron vs Prompt: Can Large Language Models already Challenge a World-Class Fiction Author at Creative Text Writing?
- Title(参考訳): Pron vs. Prompt: 大規模言語モデルは、Creative Text writingにおいて、すでにワールドクラスのフィクション作者に挑戦できるだろうか?
- Authors: Guillermo Marco, Julio Gonzalo, Ramón del Castillo, María Teresa Mateo Girona,
- Abstract要約: 言語モデル(LLM)は、言語に関連した幅広いタスクにおいて、平均的な人間よりも優れています。
我々は,DeepBlue vs. Kasparov や AlphaGo vs. Lee Sidol といったAIと人間のデュエルの精神において,Patricio Pron と GPT-4 の対戦を行った。
結果は、LLMは人間のクリエイティブな作家に挑戦するほど遠くないことを示している。
- 参考スコア(独自算出の注目度): 0.8999666725996975
- License:
- Abstract: It has become routine to report research results where Large Language Models (LLMs) outperform average humans in a wide range of language-related tasks, and creative text writing is no exception. It seems natural, then, to raise the bid: Are LLMs ready to compete in creative writing skills with a top (rather than average) novelist? To provide an initial answer for this question, we have carried out a contest between Patricio Pron (an awarded novelist, considered one of the best of his generation) and GPT-4 (one of the top performing LLMs), in the spirit of AI-human duels such as DeepBlue vs Kasparov and AlphaGo vs Lee Sidol. We asked Pron and GPT-4 to provide thirty titles each, and then to write short stories for both their titles and their opponent's. Then, we prepared an evaluation rubric inspired by Boden's definition of creativity, and we collected 5,400 manual assessments provided by literature critics and scholars. The results of our experimentation indicate that LLMs are still far from challenging a top human creative writer, and that reaching such level of autonomous creative writing skills probably cannot be reached simply with larger language models.
- Abstract(参考訳): LLM(Large Language Models)が言語関連タスクで平均的な人間よりも優れており、クリエイティブテキストの執筆も例外ではない。
LLMは、(平均よりもむしろ)トップの小説家とクリエイティブな執筆スキルを競う準備ができていますか?
そこで我々は,DeepBlue vs Kasparov や AlphaGo vs Lee Sidol といったAIと人間のデュエルの精神において,Patricio Pron と GPT-4 の対決を行った。
我々は Pron と GPT-4 にそれぞれ30タイトルの提供を依頼し、その後、彼らのタイトルと相手の短編の執筆を依頼した。
そこで我々は,ボデンの創造性の定義に触発された評価ルーブリックを作成し,文献評論家や学者が提供した5,400件のマニュアルアセスメントを収集した。
我々の実験の結果は、LLMは人間の創造的作家に挑戦するには程遠いものであり、そのようなレベルの自律的な創造的執筆スキルに達することは、おそらくより大きな言語モデルでは達成できないことを示唆している。
関連論文リスト
- Evaluating Creative Short Story Generation in Humans and Large Language Models [0.7965327033045846]
大規模言語モデル(LLM)は、最近、高品質なストーリーを生成する能力を実証した。
LLMと日常の人々の短いストーリー生成において,創造性を体系的に分析する。
LLMはスタイリスティックな複雑なストーリーを生成できるが、平均的な人間作家に比べて創造性は低い傾向にある。
論文 参考訳(メタデータ) (2024-11-04T17:40:39Z) - Dictionary Insertion Prompting for Multilingual Reasoning on Multilingual Large Language Models [52.00446751692225]
textbfDictionary textbfInsertion textbfPrompting (textbfDIP) という,新規かつシンプルで効果的な方法を提案する。
非英語のプロンプトを提供する際、DIPは単語辞書を調べ、単語の英語のプロンプトをLLMのプロンプトに挿入する。
そして、英語へのより良い翻訳とより良い英語モデル思考のステップを可能にし、明らかにより良い結果をもたらす。
論文 参考訳(メタデータ) (2024-11-02T05:10:50Z) - AI as Humanity's Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text [53.15652021126663]
本稿では、テキストの言語的創造性を定量化する第一歩として、CREATIVITY INDEXを提案する。
CREATIVITY INDEXを効率的に計算するために,新しい動的プログラミングアルゴリズムであるDJ SEARCHを導入する。
実験の結果、プロの人間作家のCreativity INDEXはLLMよりも平均66.2%高いことが判明した。
論文 参考訳(メタデータ) (2024-10-05T18:55:01Z) - The Unlikely Duel: Evaluating Creative Writing in LLMs through a Unique Scenario [12.852843553759744]
我々は,最近の言語モデル(LLM)を,英語の創造的記述タスクに基づいて評価した。
Ignatius J. Reilly と pterodactyl のエピックな戦いに基づく)特殊に調整されたプロンプトを使用して、データの漏洩をトレーニングするリスクを最小限にする。
評価は、流派、スタイル、独創性、ユーモアといった様々な側面を含む詳細なルーリックを使用して人間によって行われる。
論文 参考訳(メタデータ) (2024-06-22T17:01:59Z) - HoLLMwood: Unleashing the Creativity of Large Language Models in Screenwriting via Role Playing [45.95600225239927]
大規模言語モデル(LLM)は、文学的な文章の複雑さが極めて高いため、人間の専門家のレベルで書かれた作品を作成することはほとんどできない。
本稿では,LLMの創造性を解放し,スクリーンライティングにおけるその可能性を探るためのフレームワークであるHoLLMwoodを紹介する。
論文 参考訳(メタデータ) (2024-06-17T16:01:33Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - Can AI Write Classical Chinese Poetry like Humans? An Empirical Study
Inspired by Turing Test [8.539465812580612]
本稿では,AIの詩文作成能力を評価するために,チューリングテストに触発された新しい評価フレームワークであるProFTAPを提案する。
近年の大規模言語モデル (LLM) には,人間とほとんど区別できない古典中国語の詩を書く能力があることがわかった。
論文 参考訳(メタデータ) (2024-01-10T06:21:47Z) - Instruction-Following Evaluation for Large Language Models [52.90926820437014]
大規模言語モデルに対するインストラクション・フォロー・エスバル(IFEval)を提案する。
IFEvalは、単純で簡単に再現できる評価ベンチマークである。
市場における2つのLLMの評価結果を示す。
論文 参考訳(メタデータ) (2023-11-14T05:13:55Z) - A Confederacy of Models: a Comprehensive Evaluation of LLMs on Creative
Writing [0.0]
我々は、最近のLLMを、想像力、コヒーレンス、スタイルを必要とする難易度と複雑なタスクである、英語の創造的文章で評価する。
我々は、複数のLSMや人間に対して、そのような物語を書いて、独創性、ユーモア、スタイルといった様々な基準を含む人間の回避を行うよう依頼する。
以上の結果から、現在最先端の商用LLMは、ほとんどの面において、著者よりも若干優れていますが、オープンソースLLMは遅れています。
論文 参考訳(メタデータ) (2023-10-12T15:56:24Z) - Art or Artifice? Large Language Models and the False Promise of
Creativity [53.04834589006685]
本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。
TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。
分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3~10倍少ないことが判明した。
論文 参考訳(メタデータ) (2023-09-25T22:02:46Z) - Creative Writing with an AI-Powered Writing Assistant: Perspectives from
Professional Writers [9.120878749348986]
ニューラルネットワークモデルを用いた自然言語生成(NLG)は、AIによるクリエイティブな記述ツールを構築するという目標に、これまで以上に近づいています。
ニューラルネットワークモデルを用いた自然言語生成の最近の進歩は、AIを使ったクリエイティブな記述ツールを構築するという目標に、これまで以上に近づいている。
論文 参考訳(メタデータ) (2022-11-09T17:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。