論文の概要: Art or Artifice? Large Language Models and the False Promise of
Creativity
- arxiv url: http://arxiv.org/abs/2309.14556v2
- Date: Sun, 25 Feb 2024 05:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 19:18:53.994392
- Title: Art or Artifice? Large Language Models and the False Promise of
Creativity
- Title(参考訳): 芸術か芸術か?
大規模言語モデルと創造性の誤った約束
- Authors: Tuhin Chakrabarty, Philippe Laban, Divyansh Agarwal, Smaranda Muresan,
Chien-Sheng Wu
- Abstract要約: 本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。
TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。
分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3~10倍少ないことが判明した。
- 参考スコア(独自算出の注目度): 53.04834589006685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers have argued that large language models (LLMs) exhibit
high-quality writing capabilities from blogs to stories. However, evaluating
objectively the creativity of a piece of writing is challenging. Inspired by
the Torrance Test of Creative Thinking (TTCT), which measures creativity as a
process, we use the Consensual Assessment Technique [3] and propose the
Torrance Test of Creative Writing (TTCW) to evaluate creativity as a product.
TTCW consists of 14 binary tests organized into the original dimensions of
Fluency, Flexibility, Originality, and Elaboration. We recruit 10 creative
writers and implement a human assessment of 48 stories written either by
professional authors or LLMs using TTCW. Our analysis shows that LLM-generated
stories pass 3-10X less TTCW tests than stories written by professionals. In
addition, we explore the use of LLMs as assessors to automate the TTCW
evaluation, revealing that none of the LLMs positively correlate with the
expert assessments.
- Abstract(参考訳): 研究者は、大きな言語モデル(LLM)はブログからストーリーまで高品質な書き込み能力を示すと主張している。
しかし、書物の創造性を客観的に評価することは困難である。
創造性をプロセスとして測定するTTCT(Torrance Test of Creative Thinking)に触発され,Consensual Assessment Technique[3]を使用し,創造性を製品として評価するTorrance Test of Creative Writing(TTCW)を提案する。
TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。
10人のクリエイティビティライターを募集し、プロの作家やTLCWを用いたLLMによって書かれた48のストーリーの人間評価を実装した。
分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3~10倍少ないことがわかった。
さらに,TLCW評価を自動化するための評価器としてのLCMの利用について検討し,いずれも専門家評価と有意な相関関係がないことを明らかにした。
関連論文リスト
- Do LLMs Agree on the Creativity Evaluation of Alternative Uses? [0.4326762849037007]
本稿では,大規模言語モデル (LLM) が,代替利用テスト (AUT) への対応において,創造性を評価することに合意しているかどうかを検討する。
AUT応答のオラクルベンチマークセットを用いて、これらの出力を評価する4つの最先端LCMを実験した。
その結果、モデル間の高い合意が示され、スピアマンの相関はモデル全体で0.7以上、オラクルに関して0.77以上に達している。
論文 参考訳(メタデータ) (2024-11-23T13:34:50Z) - Evaluating Creative Short Story Generation in Humans and Large Language Models [0.7965327033045846]
大規模言語モデル(LLM)は、最近、高品質なストーリーを生成する能力を実証した。
LLMと日常の人々の短いストーリー生成において,創造性を体系的に分析する。
LLMはスタイリスティックな複雑なストーリーを生成できるが、平均的な人間作家に比べて創造性は低い傾向にある。
論文 参考訳(メタデータ) (2024-11-04T17:40:39Z) - AI as Humanity's Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text [53.15652021126663]
本稿では、テキストの言語的創造性を定量化する第一歩として、CREATIVITY INDEXを提案する。
CREATIVITY INDEXを効率的に計算するために,新しい動的プログラミングアルゴリズムであるDJ SEARCHを導入する。
実験の結果、プロの人間作家のCreativity INDEXはLLMよりも平均66.2%高いことが判明した。
論文 参考訳(メタデータ) (2024-10-05T18:55:01Z) - The creative psychometric item generator: a framework for item generation and validation using large language models [1.765099515298011]
大規模な言語モデル(LLM)は、高い創造性を必要とする職場プロセスを自動化するために使われています。
我々は,創造的問題解決(CPS)タスクという,古典的な自由応答性創造性テストのためのテスト項目を作成するための心理的にインスパイアされたフレームワークを開発する。
CPIGが有効かつ信頼性の高い項目を生成し、この効果が評価過程における既知のバイアスに寄与しないという強い実証的証拠が得られた。
論文 参考訳(メタデータ) (2024-08-30T18:31:02Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。
The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。
LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文 参考訳(メタデータ) (2024-01-23T05:19:47Z) - Evaluating Large Language Model Creativity from a Literary Perspective [13.672268920902187]
本稿では,大規模言語モデルが創造的記述プロセスにおいて補助ツールとして機能する可能性を評価する。
我々は,背景記述をインターリーブする対話的かつ多声的なプロンプト戦略,構成を案内する指示,対象スタイルのテキストのサンプル,与えられたサンプルの批判的議論を開発する。
論文 参考訳(メタデータ) (2023-11-30T16:46:25Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。