論文の概要: CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges
- arxiv url: http://arxiv.org/abs/2603.11863v1
- Date: Thu, 12 Mar 2026 12:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.071536
- Title: CreativeBench: Benchmarking and Enhancing Machine Creativity via Self-Evolving Challenges
- Title(参考訳): CreativeBench: 自己進化的チャレンジによるマシンクリエイティビティのベンチマークと改善
- Authors: Zi-Han Wang, Lam Nguyen, Zhengyang Zhao, Mengyue Yang, Chengwei Qin, Yujiu Yang, Linyi Yang,
- Abstract要約: コード生成における機械の創造性を評価するベンチマークであるCreativeBenchを紹介します。
CreativeBenchは、創造性と幻覚を、品質とノベルティの産物として定義された統一された計量によって客観的に区別する。
進化的探索パターンを内部化し,機械の創造性を継続的に向上する,プラグアンドプレイ型推論時ステアリング戦略であるEvoRePEを提案する。
- 参考スコア(独自算出の注目度): 69.3795501613098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The saturation of high-quality pre-training data has shifted research focus toward evolutionary systems capable of continuously generating novel artifacts, leading to the success of AlphaEvolve. However, the progress of such systems is hindered by the lack of rigorous, quantitative evaluation. To tackle this challenge, we introduce CreativeBench, a benchmark for evaluating machine creativity in code generation, grounded in a classical cognitive framework. Comprising two subsets -- CreativeBench-Combo and CreativeBench-Explore -- the benchmark targets combinatorial and exploratory creativity through an automated pipeline utilizing reverse engineering and self-play. By leveraging executable code, CreativeBench objectively distinguishes creativity from hallucination via a unified metric defined as the product of quality and novelty. Our analysis of state-of-the-art models reveals distinct behaviors: (1) scaling significantly improves combinatorial creativity but yields diminishing returns for exploration; (2) larger models exhibit ``convergence-by-scaling,'' becoming more correct but less divergent; and (3) reasoning capabilities primarily benefit constrained exploration rather than combination. Finally, we propose EvoRePE, a plug-and-play inference-time steering strategy that internalizes evolutionary search patterns to consistently enhance machine creativity.
- Abstract(参考訳): 高品質な事前学習データの飽和は、新しいアーティファクトを継続的に生成できる進化システムに研究の焦点を移し、AlphaEvolveの成功に繋がった。
しかし、このようなシステムの進歩は厳密で定量的な評価の欠如によって妨げられている。
この課題に対処するために、古典的な認知フレームワークを基盤とした、コード生成における機械の創造性を評価するためのベンチマークであるCreativeBenchを紹介します。
CreativeBench-ComboとCreativeBench-Exploreという2つのサブセットで構成されているこのベンチマークは、リバースエンジニアリングとセルフプレイを活用する自動パイプラインを通じて、組合せ的および探索的創造性を目標としている。
実行可能なコードを活用することにより、CreativeBenchは創造性と幻覚を、品質とノベルティの産物として定義された統一された計量を通じて客観的に区別する。
1)スケーリングは組合せの創造性を著しく改善するが、探索のリターンを減少させる; (2)大規模モデルは「収束・バイ・スケーリング」を示す; より正確だが分岐しにくい; 3) 推論能力は組み合わせよりも主に制約された探索に寄与する。
最後に,進化的探索パターンを内部化して機械の創造性を継続的に向上する,プラグアンドプレイ型推論時ステアリング戦略であるEvoRePEを提案する。
関連論文リスト
- CREATE: Testing LLMs for Associative Creativity [51.64544603712446]
創造的連想的推論のためのモデルの能力を評価するためのベンチマークであるCREATEを紹介する。
最強のモデルが他のモデルよりも高い創造性を達成することを示す。
私たちの結果は、高いトークン予算であっても、思考モデルがタスクに対してより効果的であるとは限らないことを示しています。
論文 参考訳(メタデータ) (2026-03-10T17:58:44Z) - What Shapes a Creative Machine Mind? Comprehensively Benchmarking Creativity in Foundation Models [16.81217474424392]
基礎モデル(FM)における創造性の統一評価のための総合的なベンチマークであるC2-Evalを紹介する。
C2-Evalは2つの相補的な創造形態を区別している。
以上の結果から,C2-Evalは創造的AIの進化する景観を調べる上で有効なレンズであることがわかった。
論文 参考訳(メタデータ) (2025-10-05T03:00:50Z) - Automating Creativity [1.0200170217746136]
本稿では,AIを創造的から創造的へと進化させるために必要なものについて考察する。
我々は,GenAIの創造的能力を開発するために,3つの迅速な応答・逆エンジニアリングフレームワークを開発する。
論文 参考訳(メタデータ) (2024-05-11T05:05:10Z) - Can AI Be as Creative as Humans? [84.43873277557852]
理論的には、AIは人間の創造者によって生成されたデータに適切に適合できるという条件の下で、人間と同じくらい創造的になれることを証明しています。
AIの創造性に関する議論は、十分な量のデータに適合する能力の問題に縮小されている。
論文 参考訳(メタデータ) (2024-01-03T08:49:12Z) - Towards Creativity Characterization of Generative Models via Group-based
Subset Scanning [64.6217849133164]
創造的プロセスを特定し,定量化し,特徴付けるグループベースサブセットスキャンを提案する。
創造的なサンプルは、データセット全体にわたる通常のサンプルや非創造的なサンプルよりも大きな異常のサブセットを生成する。
論文 参考訳(メタデータ) (2022-03-01T15:07:14Z) - Towards creativity characterization of generative models via group-based
subset scanning [51.84144826134919]
創造的プロセスを定量化し,検出し,特徴付けるグループベースサブセットスキャンを提案する。
創造的なサンプルは、データセットをまたいだ通常または非創造的なサンプルよりも大きな異常のサブセットを生成する。
論文 参考訳(メタデータ) (2021-04-01T14:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。