論文の概要: LiveIdeaBench: Evaluating LLMs' Scientific Creativity and Idea Generation with Minimal Context
- arxiv url: http://arxiv.org/abs/2412.17596v1
- Date: Mon, 23 Dec 2024 14:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:55.000417
- Title: LiveIdeaBench: Evaluating LLMs' Scientific Creativity and Idea Generation with Minimal Context
- Title(参考訳): LiveIdeaBench: LLMの科学的創造性とアイデア生成を最小コンテキストで評価する
- Authors: Kai Ruan, Xuan Wang, Jixiang Hong, Hao Sun,
- Abstract要約: 本稿では,Large Language Modelsの科学的創造性と多様な思考能力を評価するベンチマークであるLiveIdeaBenchを紹介する。
われわれのフレームワークは、最先端のLCMのダイナミックパネルを用いて、創造性、実現可能性、フレキシビリティ、柔軟性の4つの重要な側面にまたがって生成されたアイデアを評価する。
- 参考スコア(独自算出の注目度): 8.356074020716772
- License:
- Abstract: While Large Language Models (LLMs) have demonstrated remarkable capabilities in scientific tasks, existing evaluation frameworks primarily assess their performance using rich contextual inputs, overlooking their ability to generate novel ideas from minimal information. We introduce LiveIdeaBench, a comprehensive benchmark that evaluates LLMs' scientific creativity and divergent thinking capabilities using single-keyword prompts. Drawing from Guilford's creativity theory, our framework employs a dynamic panel of state-of-the-art LLMs to assess generated ideas across four key dimensions: originality, feasibility, fluency, and flexibility. Through extensive experimentation with 20 leading models across 1,180 keywords spanning 18 scientific domains, we reveal that scientific creative ability shows distinct patterns from general intelligence metrics. Notably, our results demonstrate that models like QwQ-32B-preview achieve comparable creative performance to top-tier models like o1-preview, despite significant gaps in their general intelligence scores. These findings highlight the importance of specialized evaluation frameworks for scientific creativity and suggest that the development of creative capabilities in LLMs may follow different trajectories than traditional problem-solving abilities.
- Abstract(参考訳): LLM(Large Language Models)は科学的なタスクにおいて顕著な能力を示してきたが、既存の評価フレームワークは主にリッチな文脈入力を用いてパフォーマンスを評価し、最小限の情報から新しいアイデアを生成する能力を見越している。
LLMの科学的創造性と,単一キーワードプロンプトを用いた分散思考能力を評価する総合ベンチマークであるLiveIdeaBenchを紹介する。
われわれのフレームワークは、ギルフォードの創造性理論から導かれたもので、最先端のLCMのダイナミックパネルを用いて、創造性、実現可能性、フレキシビリティ、柔軟性の4つの重要な側面で生成されたアイデアを評価する。
18の科学領域にまたがる1,180のキーワードにまたがる20の主要なモデルによる広範な実験を通じて、科学的創造力は一般的な知能指標とは異なるパターンを示すことが明らかとなった。
特に、我々の結果は、QwQ-32B-previewのようなモデルが、一般的なインテリジェンススコアに大きな差があるにもかかわらず、o1-previewのような上位モデルに匹敵するクリエイティブなパフォーマンスを実現していることを示している。
これらの知見は、科学的創造性のための特別な評価フレームワークの重要性を強調し、LLMにおける創造的能力の発展は、従来の問題解決能力とは異なる軌道を辿る可能性があることを示唆している。
関連論文リスト
- Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。
我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。
その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-09-07T02:07:22Z) - Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers [90.26363107905344]
大型言語モデル(LLM)は、科学的な発見を加速する可能性についての楽観主義を喚起した。
LLMシステムは、新しい専門家レベルのアイデアを生み出すための第一歩を踏み出すことができるという評価はない。
論文 参考訳(メタデータ) (2024-09-06T08:25:03Z) - Can I understand what I create? Self-Knowledge Evaluation of Large Language Models [31.85129258347539]
大規模言語モデル(LLM)は言語タスクにおいて顕著な進歩を遂げた。
フェインマンの創造を通して理解する原理に触発され、自己知識評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-10T09:53:54Z) - Creativity Has Left the Chat: The Price of Debiasing Language Models [1.223779595809275]
大規模言語モデル(LLM)の創造性に対する人間からのフィードバックからの強化学習の意図しない結果について検討する。
我々の発見は、コピーライティング、広告作成、顧客ペルソナ生成といったクリエイティブなタスクにLLMを頼っているマーケターにとって大きな意味を持つ。
論文 参考訳(メタデータ) (2024-06-08T22:14:51Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - Divergent Creativity in Humans and Large Language Models [37.67363469600804]
最近の大規模言語モデルの能力の急上昇は、人間の能力に似た創造性レベルに近づいている、という主張につながっている。
我々は、創造科学の最近の進歩を活用して、最先端のLLMと10万人の実質的なデータセットの両方において、多様な創造性を詳細に分析するためのフレームワークを構築します。
論文 参考訳(メタデータ) (2024-05-13T22:37:52Z) - Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。
The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。
LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文 参考訳(メタデータ) (2024-01-23T05:19:47Z) - Exploring the Cognitive Knowledge Structure of Large Language Models: An
Educational Diagnostic Assessment Approach [50.125704610228254]
大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すだけでなく、知性の火花も示している。
近年の研究では、人間の試験における能力の評価に焦点が当てられ、異なる領域における彼らの印象的な能力を明らかにしている。
ブルーム分類に基づく人体検査データセットであるMoocRadarを用いて評価を行った。
論文 参考訳(メタデータ) (2023-10-12T09:55:45Z) - Art or Artifice? Large Language Models and the False Promise of
Creativity [53.04834589006685]
本稿では,創造性を製品として評価するTorrance Test of Creative Writing (TTCW)を提案する。
TTCWは14のバイナリテストで構成されており、Fluency、Flexibility、Originality、Elaborationの3次元に分かれている。
分析の結果,LPM生成したストーリーはプロのストーリーよりもTTCWが3~10倍少ないことが判明した。
論文 参考訳(メタデータ) (2023-09-25T22:02:46Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - Automatic Creativity Measurement in Scratch Programs Across Modalities [6.242018846706069]
我々は、創造性の公式な尺度の定義から、この尺度を実践的な領域に適用することまで、効率的に計算できる旅を行ないます。
我々は、人気のあるビジュアルプログラミング言語であるScratchのプロジェクトに対して、一般的な測度を適用した。
我々は、Scratchプロジェクトの創造性を予測し、人間の専門家による創造性評価に基づいてトレーニングし、評価する機械学習モデルを設計した。
論文 参考訳(メタデータ) (2022-11-07T10:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。