論文の概要: What Shapes a Creative Machine Mind? Comprehensively Benchmarking Creativity in Foundation Models
- arxiv url: http://arxiv.org/abs/2510.04009v1
- Date: Sun, 05 Oct 2025 03:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.392158
- Title: What Shapes a Creative Machine Mind? Comprehensively Benchmarking Creativity in Foundation Models
- Title(参考訳): 創造的マシンマインドとは何か? 基礎モデルにおける創造性を総合的にベンチマークする
- Authors: Zicong He, Boxuan Zhang, Weihao Liu, Ruixiang Tang, Lu Cheng,
- Abstract要約: 基礎モデル(FM)における創造性の統一評価のための総合的なベンチマークであるC2-Evalを紹介する。
C2-Evalは2つの相補的な創造形態を区別している。
以上の結果から,C2-Evalは創造的AIの進化する景観を調べる上で有効なレンズであることがわかった。
- 参考スコア(独自算出の注目度): 16.81217474424392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The meteoric rise of foundation models (FMs) has expanded their capabilities far beyond conventional tasks. Creativity, long regarded as a hallmark of human intelligence and a driver of innovation, is now increasingly recognized as a critical dimension of machine intelligence in the era of generative FMs, complementing traditional measures of accuracy. However, existing evaluation frameworks for creativity remain fragmented, relying on ad hoc metrics not firmly grounded in established theories. To address this gap, we introduce C^2-Eval, a holistic benchmark for unified assessment of creativity in FMs. C^2-Eval distinguishes between two complementary forms of creativity: convergent creativity, where tasks admit constrained solutions (e.g., code generation), and divergent creativity, where tasks are open-ended (e.g., storytelling). It evaluates both dimensions using fine-grained criteria derived from social-science theory, focusing on Usefulness, Originality, and Surprise (U-O-S). Through extensive experiments on leading proprietary and open-source models, we analyze trade-offs in their creative capabilities. Our results highlight both the strengths and challenges of current FMs in pursuing a creative machine mind, showing that C^2-Eval is an effective lens for examining the evolving landscape of creative AI.
- Abstract(参考訳): ファンデーションモデル(FM)の気象学的上昇は、従来の課題を超えてその能力を拡大した。
創造性は、長年人間の知能の目印とされ、イノベーションの原動力とされてきたが、現在では、従来の精度の尺度を補完する生成的FMの時代において、マシンインテリジェンスの重要な次元として認識されている。
しかし、既存の創造性評価フレームワークは、確立された理論にしっかりと根ざしていないアドホックな指標に頼って、断片化されているままである。
C^2-EvalはFMの創造性を総合的に評価するための総合的なベンチマークである。
C^2-Evalは2つの相補的な創造形態を区別する: 収束的創造性、タスクが制約されたソリューション(例えば、コード生成)を受け入れること、そしてタスクがオープンな(例えば、ストーリーテリング)創造性である。
社会科学理論から派生したきめ細かい基準を用いて両次元を評価し、有用性、独創性、およびサプライズ(U-O-S)に焦点を当てる。
プロプライエタリモデルとオープンソースモデルをリードする広範な実験を通じて、創造性におけるトレードオフを分析します。
この結果から,C^2-Evalが創造的AIの進化する風景を観察するための有効なレンズであることを示す。
関連論文リスト
- Beyond Divergent Creativity: A Human-Based Evaluation of Creativity in Large Language Models [6.036586911740041]
大規模言語モデル(LLM)は、言語的創造的なタスクにますます使われています。
広く使われているダイバージェント・アソシエーション・タスク(DAT)は、新規性を重視し、適切性を無視している。
DAT上での最先端のLCMの範囲を評価し、そのタスクにおけるスコアが、創造力を持たない2つのベースラインのスコアよりも低いことを示す。
論文 参考訳(メタデータ) (2026-01-28T12:41:32Z) - CreativityPrism: A Holistic Benchmark for Large Language Model Creativity [64.18257552903151]
創造性はしばしば人間の知能の目印と見なされる。
さまざまなシナリオにまたがってクリエイティビティを評価するための総合的なフレームワークはまだ存在しません。
本稿では,創造性を質,新規性,多様性の3次元に分解する評価分析フレームワークであるCreativePrismを提案する。
論文 参考訳(メタデータ) (2025-10-23T00:22:10Z) - Combinatorial Creativity: A New Frontier in Generalization Abilities [14.121904952399975]
大規模言語モデル(LLM)における創造性のスケーリング挙動について検討する。
固定的な計算予算では、創造力に最適なモデル深さと幅が存在することが分かりました。
LLMは新たな科学的アイデアの創出に長けつつ,現実的な実現性確保に苦慮しているため,創造性アルゴリズムの基本的な新規性・実用性トレードオフ特性によって説明できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-09-25T11:48:37Z) - Rethinking Creativity Evaluation: A Critical Analysis of Existing Creativity Evaluations [48.57816792550401]
クリエイティビティ指標,パープレキシティ,構文テンプレート,LCM-as-a-Judgeなどのクリエイティビティ指標について検討した。
分析の結果、これらの指標は限定的な一貫性を示し、創造性の異なる次元を捉えていることがわかった。
論文 参考訳(メタデータ) (2025-08-07T15:11:48Z) - Creativity in LLM-based Multi-Agent Systems: A Survey [56.25583236738877]
大規模言語モデル(LLM)によるマルチエージェントシステム(MAS)は、人間とAIが協調してアイデアやアーティファクトを生成する方法を変えつつある。
これはMASにおける創造性に関する最初の調査である。
本研究では,(1)エージェントの能動性やペルソナ設計の分類,(2)分岐探索,反復改良,協調合成などの生成技術の概要,(3)不整合評価基準,不整合性バイアス緩和,協調競合,統一ベンチマークの欠如といった重要な課題について論じる。
論文 参考訳(メタデータ) (2025-05-27T12:36:14Z) - Probing and Inducing Combinational Creativity in Vision-Language Models [52.76981145923602]
VLM(Vision-Language Models)の最近の進歩は、それらのアウトプットが組合せの創造性を反映しているかという議論を引き起こしている。
本稿では,創造的プロセスを3つのレベルに分解するIEIフレームワークを提案する。
このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
論文 参考訳(メタデータ) (2025-04-17T17:38:18Z) - Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。
ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。
実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-18T17:51:34Z) - Creativity and Markov Decision Processes [0.20482269513546453]
創造性に関するボーデンのプロセス理論とマルコフ決定過程(MDP)の間の公式なマッピングを同定する。
筆者らは, 創造プロセスの種類, 達成の機会, 創造性への脅威(無呼吸)を, MDPで見ることができるかを理解するために, 11点中3点を詳細に調査した。
今後の作業やアプリケーションにおける,このようなマッピングの選択に関する品質基準について論じる。
論文 参考訳(メタデータ) (2024-05-23T18:16:42Z) - Can AI Be as Creative as Humans? [84.43873277557852]
理論的には、AIは人間の創造者によって生成されたデータに適切に適合できるという条件の下で、人間と同じくらい創造的になれることを証明しています。
AIの創造性に関する議論は、十分な量のデータに適合する能力の問題に縮小されている。
論文 参考訳(メタデータ) (2024-01-03T08:49:12Z) - Automatic Creativity Measurement in Scratch Programs Across Modalities [6.242018846706069]
我々は、創造性の公式な尺度の定義から、この尺度を実践的な領域に適用することまで、効率的に計算できる旅を行ないます。
我々は、人気のあるビジュアルプログラミング言語であるScratchのプロジェクトに対して、一般的な測度を適用した。
我々は、Scratchプロジェクトの創造性を予測し、人間の専門家による創造性評価に基づいてトレーニングし、評価する機械学習モデルを設計した。
論文 参考訳(メタデータ) (2022-11-07T10:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。