論文の概要: Beyond Divergent Creativity: A Human-Based Evaluation of Creativity in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.20546v1
- Date: Wed, 28 Jan 2026 12:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.927461
- Title: Beyond Divergent Creativity: A Human-Based Evaluation of Creativity in Large Language Models
- Title(参考訳): 多様な創造性を超えて:大規模言語モデルにおける創造性の評価
- Authors: Kumiko Nakajima, Jan Zuiderveld, Sandro Pezzelle,
- Abstract要約: 大規模言語モデル(LLM)は、言語的創造的なタスクにますます使われています。
広く使われているダイバージェント・アソシエーション・タスク(DAT)は、新規性を重視し、適切性を無視している。
DAT上での最先端のLCMの範囲を評価し、そのタスクにおけるスコアが、創造力を持たない2つのベースラインのスコアよりも低いことを示す。
- 参考スコア(独自算出の注目度): 6.036586911740041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in verbal creative tasks. However, previous assessments of the creative capabilities of LLMs remain weakly grounded in human creativity theory and are thus hard to interpret. The widely used Divergent Association Task (DAT) focuses on novelty, ignoring appropriateness, a core component of creativity. We evaluate a range of state-of-the-art LLMs on DAT and show that their scores on the task are lower than those of two baselines that do not possess any creative abilities, undermining its validity for model evaluation. Grounded in human creativity theory, which defines creativity as the combination of novelty and appropriateness, we introduce Conditional Divergent Association Task (CDAT). CDAT evaluates novelty conditional on contextual appropriateness, separating noise from creativity better than DAT, while remaining simple and objective. Under CDAT, smaller model families often show the most creativity, whereas advanced families favor appropriateness at lower novelty. We hypothesize that training and alignment likely shift models along this frontier, making outputs more appropriate but less creative. We release the dataset and code.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語的創造的なタスクにますます使われています。
しかし、従来のLCMの創造性評価は、人間の創造性理論に弱い根拠が残っており、解釈が困難である。
広く使われているダイバージェント・アソシエーション・タスク(DAT: Divergent Association Task)は、創造のコアコンポーネントである適切さを無視して、斬新さに焦点を当てている。
DAT上での最先端のLCMの範囲を評価し、そのタスクにおけるスコアが、創造力を持たない2つのベースラインのスコアよりも低く、モデル評価の妥当性を損なうことを示す。
創造性を創発性と適切性の組み合わせとして定義する創造性理論を基礎として,条件分岐アソシエーションタスク(CDAT)を紹介する。
CDATは、DATよりも創造性に優れたノイズを分離しながら、文脈的適切性に基づく新規性条件を評価する。
CDATの下では、より小さなモデルファミリーは、しばしば最も創造性を示すが、先進的な家族は、より低いノベルティにおいて適切である。
トレーニングとアライメントはこのフロンティアに沿ってモデルをシフトし、アウトプットをより適切だが創造的でないものにする、という仮説を立てています。
データセットとコードをリリースします。
関連論文リスト
- CreativityPrism: A Holistic Benchmark for Large Language Model Creativity [64.18257552903151]
創造性はしばしば人間の知能の目印と見なされる。
さまざまなシナリオにまたがってクリエイティビティを評価するための総合的なフレームワークはまだ存在しません。
本稿では,創造性を質,新規性,多様性の3次元に分解する評価分析フレームワークであるCreativePrismを提案する。
論文 参考訳(メタデータ) (2025-10-23T00:22:10Z) - Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity [29.58419742230708]
N-gramノベルティは、トレーニングデータ以外のテキストを生成する言語モデルの能力を評価するために広く利用されている。
我々は,この創造性の概念とn-gramの新規性との関係を,人間とAIが生成したテキストの密読を通して検討する。
我々は,n-gramの新規性は,専門家が判断する創造性と肯定的に関連しているのに対し,n-gramの新規性によるトップクァアタイル表現の91%は創造性とは判断されないことがわかった。
論文 参考訳(メタデータ) (2025-09-26T17:59:05Z) - Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations [48.57816792550401]
クリエイティビティ指標,パープレキシティ,構文テンプレート,LCM-as-a-Judgeなどのクリエイティビティ指標について検討した。
分析の結果、これらの指標は限定的な一貫性を示し、創造性の異なる次元を捉えていることがわかった。
論文 参考訳(メタデータ) (2025-08-07T15:11:48Z) - A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - Steering Large Language Models to Evaluate and Amplify Creativity [7.031631627161492]
創造性を判断するために、創造的に書く方法に関するこの知識を活用できることを示します。
我々は,LLMの内部状態の違いを抽出する機械的アプローチを,「空虚」あるいは「創造的」に応答するよう促す。
論文 参考訳(メタデータ) (2024-12-08T20:28:48Z) - Creativity Has Left the Chat: The Price of Debiasing Language Models [1.223779595809275]
大規模言語モデル(LLM)の創造性に対する人間からのフィードバックからの強化学習の意図しない結果について検討する。
我々の発見は、コピーライティング、広告作成、顧客ペルソナ生成といったクリエイティブなタスクにLLMを頼っているマーケターにとって大きな意味を持つ。
論文 参考訳(メタデータ) (2024-06-08T22:14:51Z) - Divergent Creativity in Humans and Large Language Models [37.67363469600804]
大きな言語モデル(LLM)は、人間の能力に似た創造性レベルに近づいていると主張している。
我々は最近の計算創造性の進歩を利用して、最先端のLLMと10万人の人間のデータセットのセマンティックな相違を分析する。
我々は, LLMがダイバージェント・アソシエーション・タスクにおいて, 平均的人的パフォーマンスを上回り, 人間の創造的筆記能力にアプローチできる証拠を見出した。
論文 参考訳(メタデータ) (2024-05-13T22:37:52Z) - Can AI Be as Creative as Humans? [84.43873277557852]
理論的には、AIは人間の創造者によって生成されたデータに適切に適合できるという条件の下で、人間と同じくらい創造的になれることを証明しています。
AIの創造性に関する議論は、十分な量のデータに適合する能力の問題に縮小されている。
論文 参考訳(メタデータ) (2024-01-03T08:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。