Fugu-MT 論文翻訳(概要): Art or Artifice? Large Language Models and the False Promise of Creativity

論文の概要: Art or Artifice? Large Language Models and the False Promise of Creativity

arxiv url: http://arxiv.org/abs/2309.14556v3
Date: Fri, 8 Mar 2024 05:20:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-11 23:27:14.163230
Title: Art or Artifice? Large Language Models and the False Promise of Creativity
Title（参考訳）: 芸術か芸術か? 大規模言語モデルと創造性の誤った約束
Authors: Tuhin Chakrabarty, Philippe Laban, Divyansh Agarwal, Smaranda Muresan, Chien-Sheng Wu
Abstract要約: 本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。 TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3～10倍少ないことが判明した。
参考スコア（独自算出の注目度）: 53.04834589006685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Researchers have argued that large language models (LLMs) exhibit high-quality writing capabilities from blogs to stories. However, evaluating objectively the creativity of a piece of writing is challenging. Inspired by the Torrance Test of Creative Thinking (TTCT), which measures creativity as a process, we use the Consensual Assessment Technique [3] and propose the Torrance Test of Creative Writing (TTCW) to evaluate creativity as a product. TTCW consists of 14 binary tests organized into the original dimensions of Fluency, Flexibility, Originality, and Elaboration. We recruit 10 creative writers and implement a human assessment of 48 stories written either by professional authors or LLMs using TTCW. Our analysis shows that LLM-generated stories pass 3-10X less TTCW tests than stories written by professionals. In addition, we explore the use of LLMs as assessors to automate the TTCW evaluation, revealing that none of the LLMs positively correlate with the expert assessments.
Abstract（参考訳）: 研究者は、大きな言語モデル(LLM)はブログからストーリーまで高品質な書き込み能力を示すと主張している。しかし、書物の創造性を客観的に評価することは困難である。創造性をプロセスとして測定するTTCT(Torrance Test of Creative Thinking)に触発され,Consensual Assessment Technique[3]を使用し,創造性を製品として評価するTorrance Test of Creative Writing(TTCW)を提案する。 TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。 10人のクリエイティビティライターを募集し、プロの作家やTLCWを用いたLLMによって書かれた48のストーリーの人間評価を実装した。分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3～10倍少ないことがわかった。さらに,TLCW評価を自動化するための評価器としてのLCMの利用について検討し,いずれも専門家評価と有意な相関関係がないことを明らかにした。

関連論文リスト

CreativityPrism: A Holistic Benchmark for Large Language Model Creativity [64.18257552903151]
創造性はしばしば人間の知能の目印と見なされる。さまざまなシナリオにまたがってクリエイティビティを評価するための総合的なフレームワークはまだ存在しません。本稿では,創造性を質,新規性,多様性の3次元に分解する評価分析フレームワークであるCreativePrismを提案する。
論文参考訳（メタデータ） (2025-10-23T00:22:10Z)
Curiosity-Driven LLM-as-a-judge for Personalized Creative Judgment [4.334576480811837]
本稿では,創造的文章評価のための新しい好奇心駆動型LCM-as-a-judgeを提案する。本手法は,全アノテータが互いに一致しない主観評価において特に有用である。
論文参考訳（メタデータ） (2025-10-01T04:29:36Z)
Evaluating the Creativity of LLMs in Persian Literary Text Generation [5.067768639196139]
我々は、20の多様なトピックにまたがるユーザー生成ペルシア文学のデータセットを構築した。創造的思考のTorrance Testsを適応させることにより、創造性、流布性、柔軟性、実験の4つの側面に沿ったモデル出力を評価する。
論文参考訳（メタデータ） (2025-09-22T20:32:56Z)
Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations [48.57816792550401]
クリエイティビティ指標,パープレキシティ,構文テンプレート,LCM-as-a-Judgeなどのクリエイティビティ指標について検討した。分析の結果、これらの指標は限定的な一貫性を示し、創造性の異なる次元を捉えていることがわかった。
論文参考訳（メタデータ） (2025-08-07T15:11:48Z)
Help Me Write a Story: Evaluating LLMs' Ability to Generate Writing Feedback [57.200668979963694]
我々は1,300のストーリーからなる新しいテストセットを提示し、故意に執筆問題を紹介した。本研究では,この作業においてよく用いられるLCMの性能を,自動評価と人的評価の両方を用いて検討する。
論文参考訳（メタデータ） (2025-07-21T18:56:50Z)
Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach [32.654673913638426]
本稿では,創造性を製品として評価するTorance Test of Creative Writing (TTCW)に基づく自動評価手法を提案する。提案手法は、高品質な参照テキストに対して生成されたクリエイティブテキストをスコアリングする参照ベースのLikertスタイルのアプローチを用いる。
論文参考訳（メタデータ） (2025-04-22T10:52:23Z)
A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。 LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文参考訳（メタデータ） (2025-01-25T09:11:15Z)
Do LLMs Agree on the Creativity Evaluation of Alternative Uses? [0.4326762849037007]
本稿では,大規模言語モデル (LLM) が,代替利用テスト (AUT) への対応において,創造性を評価することに合意しているかどうかを検討する。 AUT応答のオラクルベンチマークセットを用いて、これらの出力を評価する4つの最先端LCMを実験した。その結果、モデル間の高い合意が示され、スピアマンの相関はモデル全体で0.7以上、オラクルに関して0.77以上に達している。
論文参考訳（メタデータ） (2024-11-23T13:34:50Z)
Evaluating Creative Short Story Generation in Humans and Large Language Models [0.7965327033045846]
大規模言語モデル(LLM)は、最近、高品質なストーリーを生成する能力を実証した。 LLMと日常の人々の短いストーリー生成において,創造性を体系的に分析する。 LLMはスタイリスティックな複雑なストーリーを生成できるが、平均的な人間作家に比べて創造性は低い傾向にある。
論文参考訳（メタデータ） (2024-11-04T17:40:39Z)
AI as Humanity's Salieri: Quantifying Linguistic Creativity of Language Models via Systematic Attribution of Machine Text against Web Text [53.15652021126663]
本稿では、テキストの言語的創造性を定量化する第一歩として、CREATIVITY INDEXを提案する。 CREATIVITY INDEXを効率的に計算するために,新しい動的プログラミングアルゴリズムであるDJ SEARCHを導入する。実験の結果、プロの人間作家のCreativity INDEXはLLMよりも平均66.2%高いことが判明した。
論文参考訳（メタデータ） (2024-10-05T18:55:01Z)
The creative psychometric item generator: a framework for item generation and validation using large language models [1.765099515298011]
大規模な言語モデル(LLM)は、高い創造性を必要とする職場プロセスを自動化するために使われています。我々は,創造的問題解決(CPS)タスクという,古典的な自由応答性創造性テストのためのテスト項目を作成するための心理的にインスパイアされたフレームワークを開発する。 CPIGが有効かつ信頼性の高い項目を生成し、この効果が評価過程における既知のバイアスに寄与しないという強い実証的証拠が得られた。
論文参考訳（メタデータ） (2024-08-30T18:31:02Z)
Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文参考訳（メタデータ） (2024-06-27T19:26:11Z)
Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。 The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。 LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文参考訳（メタデータ） (2024-01-23T05:19:47Z)
Evaluating Large Language Model Creativity from a Literary Perspective [13.672268920902187]
本稿では,大規模言語モデルが創造的記述プロセスにおいて補助ツールとして機能する可能性を評価する。我々は,背景記述をインターリーブする対話的かつ多声的なプロンプト戦略,構成を案内する指示,対象スタイルのテキストのサンプル,与えられたサンプルの批判的議論を開発する。
論文参考訳（メタデータ） (2023-11-30T16:46:25Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)
Exploring the Use of Large Language Models for Reference-Free Text Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。 ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文参考訳（メタデータ） (2023-04-03T05:29:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。