論文の概要: Has the Creativity of Large-Language Models peaked? An analysis of inter- and intra-LLM variability
- arxiv url: http://arxiv.org/abs/2504.12320v1
- Date: Thu, 10 Apr 2025 19:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 05:05:36.439065
- Title: Has the Creativity of Large-Language Models peaked? An analysis of inter- and intra-LLM variability
- Title(参考訳): 大規模言語モデルの創造性はピークに達したか?-LLM間およびLLM内変動の解析
- Authors: Jennifer Haase, Paul H. P. Hanel, Sebastian Pokutta,
- Abstract要約: 実証された2つのクリエイティビティ・アセスメントにおいて,広く使用されている大規模言語モデル(LLM)を14種類評価した。
予想とは対照的に、過去18~24ヶ月でクリエイティブなパフォーマンスが向上した証拠は見つからなかった。
同じプロンプトを与えられたLLMは、平均以下からオリジナルまで、アウトプットを生成できる。
- 参考スコア(独自算出の注目度): 23.509294903995745
- License:
- Abstract: Following the widespread adoption of ChatGPT in early 2023, numerous studies reported that large language models (LLMs) can match or even surpass human performance in creative tasks. However, it remains unclear whether LLMs have become more creative over time, and how consistent their creative output is. In this study, we evaluated 14 widely used LLMs -- including GPT-4, Claude, Llama, Grok, Mistral, and DeepSeek -- across two validated creativity assessments: the Divergent Association Task (DAT) and the Alternative Uses Task (AUT). Contrary to expectations, we found no evidence of increased creative performance over the past 18-24 months, with GPT-4 performing worse than in previous studies. For the more widely used AUT, all models performed on average better than the average human, with GPT-4o and o3-mini performing best. However, only 0.28% of LLM-generated responses reached the top 10% of human creativity benchmarks. Beyond inter-model differences, we document substantial intra-model variability: the same LLM, given the same prompt, can produce outputs ranging from below-average to original. This variability has important implications for both creativity research and practical applications. Ignoring such variability risks misjudging the creative potential of LLMs, either inflating or underestimating their capabilities. The choice of prompts affected LLMs differently. Our findings underscore the need for more nuanced evaluation frameworks and highlight the importance of model selection, prompt design, and repeated assessment when using Generative AI (GenAI) tools in creative contexts.
- Abstract(参考訳): 2023年初頭にChatGPTが広く採用されると、多くの研究が、大きな言語モデル(LLM)が創造的なタスクにおける人間のパフォーマンスと一致したり、超えたりできると報告した。
しかしながら、LLMが時間とともにより創造的になったか、創造的なアウトプットがどの程度一貫性があるかは、まだ不明である。
本研究では,GPT-4,Claude,Llama,Grok,Mistral,DeepSeekを含む14のLLMを,DATとAUTの2つの検証されたクリエイティビティ評価で評価した。
予想とは対照的に,過去18~24ヶ月で創造性向上の証拠は見つからなかった。
より広く使用されるAUTでは、GPT-4oとo3-miniが最高性能の全てのモデルが平均的な人間よりも平均的に良い性能で実行された。
しかし、LCMが生成するレスポンスの0.28%しか人間の創造性ベンチマークの上位10%に達しなかった。
同じプロンプトを与えられたLLMは、平均以下からオリジナルまで、アウトプットを生成できる。
この変動性は創造性研究と実践的応用の両方に重要な意味を持つ。
このような変動を無視することは、LLMの創造的可能性を誤認し、その能力を膨らませたり過小評価したりする。
プロンプトの選択はLLMに異なる影響を与えた。
我々の知見は、創造的文脈でジェネレーティブAI(GenAI)ツールを使用する場合、より微妙な評価フレームワークの必要性を強調し、モデル選択、迅速な設計、繰り返し評価の重要性を強調した。
関連論文リスト
- A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - LiveIdeaBench: Evaluating LLMs' Scientific Creativity and Idea Generation with Minimal Context [13.967898012303325]
本稿では,Large Language Modelsの科学的創造性と多様な思考能力を評価するベンチマークであるLiveIdeaBenchを紹介する。
われわれのフレームワークは、最先端のLCMのダイナミックパネルを用いて、創造性、実現可能性、フレキシビリティ、柔軟性の4つの重要な側面にまたがって生成されたアイデアを評価する。
論文 参考訳(メタデータ) (2024-12-23T14:13:44Z) - Do LLMs Agree on the Creativity Evaluation of Alternative Uses? [0.4326762849037007]
本稿では,大規模言語モデル (LLM) が,代替利用テスト (AUT) への対応において,創造性を評価することに合意しているかどうかを検討する。
AUT応答のオラクルベンチマークセットを用いて、これらの出力を評価する4つの最先端LCMを実験した。
その結果、モデル間の高い合意が示され、スピアマンの相関はモデル全体で0.7以上、オラクルに関して0.77以上に達している。
論文 参考訳(メタデータ) (2024-11-23T13:34:50Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。
The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。
LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文 参考訳(メタデータ) (2024-01-23T05:19:47Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。
LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。
自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文 参考訳(メタデータ) (2023-11-14T07:26:32Z) - Probing the Creativity of Large Language Models: Can models produce
divergent semantic association? [9.992602859777689]
本研究では,認知的視点から大規模言語モデルの創造的思考を研究することを目的とする。
本研究では、モデルに無関係な単語を生成し、それらの間の意味的距離を計算するための創造性を客観的に測定する散発的アソシエーションタスク(DAT)を利用する。
以上の結果から,先進的な大規模言語モデルには,創造性の基礎となる基本的なプロセスである意味的関連性が存在することが示唆された。
論文 参考訳(メタデータ) (2023-10-17T11:23:32Z) - L-Eval: Instituting Standardized Evaluation for Long Context Language
Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。
20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。
その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文 参考訳(メタデータ) (2023-07-20T17:59:41Z) - Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents [53.78782375511531]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。