論文の概要: CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge
- arxiv url: http://arxiv.org/abs/2604.03374v1
- Date: Fri, 03 Apr 2026 18:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.542871
- Title: CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge
- Title(参考訳): CresOWLve: 現実の知識に関する創造的な問題解決のベンチマーク
- Authors: Mete Ismayilzada, Renqing Cuomao, Daniil Yurshevich, Anna Sotnikova, Lonneke van der Plas, Antoine Bosselut,
- Abstract要約: 実世界の知識に根ざしたパズルを用いて,創造的な問題解決を評価するためのベンチマークであるCresOWLveを紹介する。
CresOWLveの問題は、複数の創造的思考戦略を採用し、さまざまなドメインから事実を抽出し、ソリューションに到達するためにそれらを創造的に組み合わせることである。
モデルは、創造的なものよりも、現実的な質問において、はるかに優れたパフォーマンスを発揮する。
- 参考スコア(独自算出の注目度): 19.526111468269892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creative problem-solving requires combining multiple cognitive abilities, including logical reasoning, lateral thinking, analogy-making, and commonsense knowledge, to discover insights that connect seemingly unrelated pieces of information. However, most existing benchmarks for large language models (LLMs) evaluate only specific components of this process. Moreover, many creativity-oriented benchmarks rely on artificially constructed brainteasers or contrived scenarios that do not reflect how creative problem-solving occurs in real-world settings. To address this gap, we introduce CresOWLve, a benchmark for evaluating creative problem-solving using puzzles grounded in real-world knowledge. Problems in CresOWLve require employing multiple creative thinking strategies, retrieving facts from diverse domains, and creatively combining them to arrive at a solution. Evaluating several frontier non-thinking and thinking LLMs, we show that CresOWLve remains highly challenging. Our analysis reveals a consistent performance gap: models perform substantially better on factual questions than on creative ones (up to a -17% drop). While models can often retrieve the relevant knowledge, they struggle to form the non-obvious creative connections required to integrate this information and arrive at the correct answer.
- Abstract(参考訳): 創造的な問題解決には、論理的推論、横方向の思考、類推、常識的知識を含む複数の認知能力を組み合わせることが必要である。
しかし、既存の大規模言語モデル(LLM)のベンチマークのほとんどは、このプロセスの特定のコンポーネントのみを評価している。
さらに、多くのクリエイティビティ指向のベンチマークは、現実の環境で創造的な問題解決がどのように起こるのかを反映しない、人工的に構築されたブレインテザやコントリビュートシナリオに依存している。
このギャップに対処するために,現実世界の知識に根ざしたパズルを用いて,創造的な問題解決を評価するためのベンチマークであるCresOWLveを紹介した。
CresOWLveの問題は、複数の創造的思考戦略を採用し、さまざまなドメインから事実を抽出し、ソリューションに到達するためにそれらを創造的に組み合わせることである。
いくつかの未考・思考のフロンティアを評価した結果,CresOWLveは依然として極めて困難であることがわかった。
モデルは、創造的(最大17%の減少)よりも、現実的な質問で大幅にパフォーマンスが向上します。
モデルは、しばしば関連する知識を回収するが、これらの情報を統合して正しい答えに到達するのに必要な、忘れられない創造的なつながりを形成するのに苦労する。
関連論文リスト
- CREATE: Testing LLMs for Associative Creativity [51.64544603712446]
創造的連想的推論のためのモデルの能力を評価するためのベンチマークであるCREATEを紹介する。
最強のモデルが他のモデルよりも高い創造性を達成することを示す。
私たちの結果は、高いトークン予算であっても、思考モデルがタスクに対してより効果的であるとは限らないことを示しています。
論文 参考訳(メタデータ) (2026-03-10T17:58:44Z) - Divergent-Convergent Thinking in Large Language Models for Creative Problem Generation [22.659182231103443]
大規模言語モデル(LLM)は、教育的な問題や問題を生成でき、教育者が大規模な学習教材を作成できる。
LLMはArtificial Hivemindの効果によって制限され、同じモデル内で同様の応答を生成し、異なるモデル間で均質な出力を生成する。
本稿では,LCMの推論を異なる位相に明確に把握する2相プロンプト法であるCreativeDCを提案する。
論文 参考訳(メタデータ) (2025-12-29T16:53:48Z) - A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。
我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。
我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - On the Creativity of Large Language Models [2.4555276449137042]
大規模言語モデル(LLM)は、人工知能のいくつかの領域に革命をもたらしている。
本稿では、まず、創造性理論のレンズ下でのLCMの開発について分析する。
そして、私たちは、製品、プロセス、プレス、そして人という、異なる古典的な視点を考えます。
最後に、創造産業に焦点をあてて、これらの技術の社会的影響について検討する。
論文 参考訳(メタデータ) (2023-03-27T18:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。