論文の概要: What Shapes a Creative Machine Mind? Comprehensively Benchmarking Creativity in Foundation Models
- arxiv url: http://arxiv.org/abs/2510.04009v1
- Date: Sun, 05 Oct 2025 03:00:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.392158
- Title: What Shapes a Creative Machine Mind? Comprehensively Benchmarking Creativity in Foundation Models
- Title(参考訳): 創造的マシンマインドとは何か? 基礎モデルにおける創造性を総合的にベンチマークする
- Authors: Zicong He, Boxuan Zhang, Weihao Liu, Ruixiang Tang, Lu Cheng,
- Abstract要約: 基礎モデル(FM)における創造性の統一評価のための総合的なベンチマークであるC2-Evalを紹介する。
C2-Evalは2つの相補的な創造形態を区別している。
以上の結果から,C2-Evalは創造的AIの進化する景観を調べる上で有効なレンズであることがわかった。
- 参考スコア(独自算出の注目度): 16.81217474424392
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The meteoric rise of foundation models (FMs) has expanded their capabilities far beyond conventional tasks. Creativity, long regarded as a hallmark of human intelligence and a driver of innovation, is now increasingly recognized as a critical dimension of machine intelligence in the era of generative FMs, complementing traditional measures of accuracy. However, existing evaluation frameworks for creativity remain fragmented, relying on ad hoc metrics not firmly grounded in established theories. To address this gap, we introduce C^2-Eval, a holistic benchmark for unified assessment of creativity in FMs. C^2-Eval distinguishes between two complementary forms of creativity: convergent creativity, where tasks admit constrained solutions (e.g., code generation), and divergent creativity, where tasks are open-ended (e.g., storytelling). It evaluates both dimensions using fine-grained criteria derived from social-science theory, focusing on Usefulness, Originality, and Surprise (U-O-S). Through extensive experiments on leading proprietary and open-source models, we analyze trade-offs in their creative capabilities. Our results highlight both the strengths and challenges of current FMs in pursuing a creative machine mind, showing that C^2-Eval is an effective lens for examining the evolving landscape of creative AI.
- Abstract(参考訳): ファンデーションモデル(FM)の気象学的上昇は、従来の課題を超えてその能力を拡大した。
創造性は、長年人間の知能の目印とされ、イノベーションの原動力とされてきたが、現在では、従来の精度の尺度を補完する生成的FMの時代において、マシンインテリジェンスの重要な次元として認識されている。
しかし、既存の創造性評価フレームワークは、確立された理論にしっかりと根ざしていないアドホックな指標に頼って、断片化されているままである。
C^2-EvalはFMの創造性を総合的に評価するための総合的なベンチマークである。
C^2-Evalは2つの相補的な創造形態を区別する: 収束的創造性、タスクが制約されたソリューション(例えば、コード生成)を受け入れること、そしてタスクがオープンな(例えば、ストーリーテリング)創造性である。
社会科学理論から派生したきめ細かい基準を用いて両次元を評価し、有用性、独創性、およびサプライズ(U-O-S)に焦点を当てる。
プロプライエタリモデルとオープンソースモデルをリードする広範な実験を通じて、創造性におけるトレードオフを分析します。
この結果から,C^2-Evalが創造的AIの進化する風景を観察するための有効なレンズであることを示す。
関連論文リスト
- Combinatorial Creativity: A New Frontier in Generalization Abilities [14.121904952399975]
大規模言語モデル(LLM)における創造性のスケーリング挙動について検討する。
固定的な計算予算では、創造力に最適なモデル深さと幅が存在することが分かりました。
LLMは新たな科学的アイデアの創出に長けつつ,現実的な実現性確保に苦慮しているため,創造性アルゴリズムの基本的な新規性・実用性トレードオフ特性によって説明できる可能性が示唆された。
論文 参考訳(メタデータ) (2025-09-25T11:48:37Z) - Probing and Inducing Combinational Creativity in Vision-Language Models [52.76981145923602]
VLM(Vision-Language Models)の最近の進歩は、それらのアウトプットが組合せの創造性を反映しているかという議論を引き起こしている。
本稿では,創造的プロセスを3つのレベルに分解するIEIフレームワークを提案する。
このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
論文 参考訳(メタデータ) (2025-04-17T17:38:18Z) - Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。
ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。
実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-18T17:51:34Z) - Creativity and Markov Decision Processes [0.20482269513546453]
創造性に関するボーデンのプロセス理論とマルコフ決定過程(MDP)の間の公式なマッピングを同定する。
筆者らは, 創造プロセスの種類, 達成の機会, 創造性への脅威(無呼吸)を, MDPで見ることができるかを理解するために, 11点中3点を詳細に調査した。
今後の作業やアプリケーションにおける,このようなマッピングの選択に関する品質基準について論じる。
論文 参考訳(メタデータ) (2024-05-23T18:16:42Z) - Can AI Be as Creative as Humans? [84.43873277557852]
理論的には、AIは人間の創造者によって生成されたデータに適切に適合できるという条件の下で、人間と同じくらい創造的になれることを証明しています。
AIの創造性に関する議論は、十分な量のデータに適合する能力の問題に縮小されている。
論文 参考訳(メタデータ) (2024-01-03T08:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。