論文の概要: LiveIdeaBench: Evaluating LLMs' Scientific Creativity and Idea Generation with Minimal Context
- arxiv url: http://arxiv.org/abs/2412.17596v1
- Date: Mon, 23 Dec 2024 14:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:55.000417
- Title: LiveIdeaBench: Evaluating LLMs' Scientific Creativity and Idea Generation with Minimal Context
- Title(参考訳): LiveIdeaBench: LLMの科学的創造性とアイデア生成を最小コンテキストで評価する
- Authors: Kai Ruan, Xuan Wang, Jixiang Hong, Hao Sun,
- Abstract要約: 本稿では,Large Language Modelsの科学的創造性と多様な思考能力を評価するベンチマークであるLiveIdeaBenchを紹介する。
われわれのフレームワークは、最先端のLCMのダイナミックパネルを用いて、創造性、実現可能性、フレキシビリティ、柔軟性の4つの重要な側面にまたがって生成されたアイデアを評価する。
- 参考スコア(独自算出の注目度): 8.356074020716772
- License:
- Abstract: While Large Language Models (LLMs) have demonstrated remarkable capabilities in scientific tasks, existing evaluation frameworks primarily assess their performance using rich contextual inputs, overlooking their ability to generate novel ideas from minimal information. We introduce LiveIdeaBench, a comprehensive benchmark that evaluates LLMs' scientific creativity and divergent thinking capabilities using single-keyword prompts. Drawing from Guilford's creativity theory, our framework employs a dynamic panel of state-of-the-art LLMs to assess generated ideas across four key dimensions: originality, feasibility, fluency, and flexibility. Through extensive experimentation with 20 leading models across 1,180 keywords spanning 18 scientific domains, we reveal that scientific creative ability shows distinct patterns from general intelligence metrics. Notably, our results demonstrate that models like QwQ-32B-preview achieve comparable creative performance to top-tier models like o1-preview, despite significant gaps in their general intelligence scores. These findings highlight the importance of specialized evaluation frameworks for scientific creativity and suggest that the development of creative capabilities in LLMs may follow different trajectories than traditional problem-solving abilities.
- Abstract(参考訳): LLM(Large Language Models)は科学的なタスクにおいて顕著な能力を示してきたが、既存の評価フレームワークは主にリッチな文脈入力を用いてパフォーマンスを評価し、最小限の情報から新しいアイデアを生成する能力を見越している。
LLMの科学的創造性と,単一キーワードプロンプトを用いた分散思考能力を評価する総合ベンチマークであるLiveIdeaBenchを紹介する。
われわれのフレームワークは、ギルフォードの創造性理論から導かれたもので、最先端のLCMのダイナミックパネルを用いて、創造性、実現可能性、フレキシビリティ、柔軟性の4つの重要な側面で生成されたアイデアを評価する。
18の科学領域にまたがる1,180のキーワードにまたがる20の主要なモデルによる広範な実験を通じて、科学的創造力は一般的な知能指標とは異なるパターンを示すことが明らかとなった。
特に、我々の結果は、QwQ-32B-previewのようなモデルが、一般的なインテリジェンススコアに大きな差があるにもかかわらず、o1-previewのような上位モデルに匹敵するクリエイティブなパフォーマンスを実現していることを示している。
これらの知見は、科学的創造性のための特別な評価フレームワークの重要性を強調し、LLMにおける創造的能力の発展は、従来の問題解決能力とは異なる軌道を辿る可能性があることを示唆している。
関連論文リスト
- A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。
LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。
その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文 参考訳(メタデータ) (2025-01-25T09:11:15Z) - Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning [88.68573198200698]
本研究では,多様で挑戦的な心的データ理論を大規模に生成するための最初のフレームワークであるExploreToMを紹介する。
我々のアプローチは、A*検索をカスタムドメイン特化言語に利用して、複雑なストーリ構造と、新しく、多様だが、もっともらしいシナリオを生成します。
評価の結果,Llama-3.1-70B や GPT-4o などの最先端 LLM はExploreToM 生成データに対して0%,9% の精度を示した。
論文 参考訳(メタデータ) (2024-12-12T21:29:00Z) - Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。
我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。
その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-09-07T02:07:22Z) - Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers [90.26363107905344]
大型言語モデル(LLM)は、科学的な発見を加速する可能性についての楽観主義を喚起した。
LLMシステムは、新しい専門家レベルのアイデアを生み出すための第一歩を踏み出すことができるという評価はない。
論文 参考訳(メタデータ) (2024-09-06T08:25:03Z) - Benchmarking Language Model Creativity: A Case Study on Code Generation [39.546827184857754]
本研究では,LLMの創造性を定量化するフレームワークを提案する。
生成した創造的応答における収束的思考と発散的思考の両方を定量化する計量であるNEOGAUGEを定義する。
我々はCodeforcesの問題に関する提案されたフレームワークをテストする。これは、タスクをコーディングするための自然なデータセットと、先行する人間のソリューションのコレクションの両方に役立ちます。
論文 参考訳(メタデータ) (2024-07-12T05:55:22Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - Divergent Creativity in Humans and Large Language Models [37.67363469600804]
最近の大規模言語モデルの能力の急上昇は、人間の能力に似た創造性レベルに近づいている、という主張につながっている。
我々は、創造科学の最近の進歩を活用して、最先端のLLMと10万人の実質的なデータセットの両方において、多様な創造性を詳細に分析するためのフレームワークを構築します。
論文 参考訳(メタデータ) (2024-05-13T22:37:52Z) - Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。
The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。
LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文 参考訳(メタデータ) (2024-01-23T05:19:47Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - Automatic Creativity Measurement in Scratch Programs Across Modalities [6.242018846706069]
我々は、創造性の公式な尺度の定義から、この尺度を実践的な領域に適用することまで、効率的に計算できる旅を行ないます。
我々は、人気のあるビジュアルプログラミング言語であるScratchのプロジェクトに対して、一般的な測度を適用した。
我々は、Scratchプロジェクトの創造性を予測し、人間の専門家による創造性評価に基づいてトレーニングし、評価する機械学習モデルを設計した。
論文 参考訳(メタデータ) (2022-11-07T10:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。