Fugu-MT 論文翻訳(概要): LLM Jaggedness Unlocks Scientific Creativity

論文の概要: LLM Jaggedness Unlocks Scientific Creativity

arxiv url: http://arxiv.org/abs/2605.10574v2
Date: Wed, 20 May 2026 16:24:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 14:55:44.000389
Title: LLM Jaggedness Unlocks Scientific Creativity
Title（参考訳）: LLM Jaggednessが科学の創造性を解き放つ
Authors: Shray Mathur, J. Anibal Boscoboinik, Esther H. R. Tsai, Kevin G. Yager,
Abstract要約: SciAidanBenchは、大規模言語モデルの科学的創造性を測定するために、オープンな科学的質問のベンチマークである。ジャグネスはモデル全体とモデル内の両方に現れます。このジャグネスは科学的創造性を増幅するために有効であることを示す。
参考スコア（独自算出の注目度）: 0.23051777929746634
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As artificial intelligence advances, models are not improving uniformly. Instead, progress unfolds in a jagged fashion, with capabilities growing unevenly across tasks, domains, and model scales. In this work, we examine this dynamic jaggedness through the lens of scientific idea generation. We introduce SciAidanBench, a benchmark of open-ended scientific questions designed to measure the scientific creativity of large language models (LLMs). Given a scientific question, models are asked to generate as many unique and coherent ideas as possible, with the total number of valid responses serving as a proxy for creative potential. Evaluating 19 base models across 8 providers (30 total variants including reasoning versions), we find that jaggedness manifests both across models and within models. First, in a cross-task comparison between general and scientific creativity, improvements in general creativity do not translate uniformly to scientific creativity, revealing divergent capability profiles across models. Second, at the prompt level, stronger models do not improve uniformly; instead, they exhibit high variability, with bursts of creativity on some questions and limited performance on others. Third, at the domain level, individual models display uneven strengths across scientific subfields, reflecting fragmented internal capability profiles. Finally, we show that this jaggedness can be harnessed. We explore mechanisms of inference-time compute, knowledge pooling, and brainstorming to combine models effectively and construct meta-model ensembles that outperform any single model. Our results position jaggedness not as a limitation, but as a resource, a structural feature of AI progress that, when understood and leveraged, can amplify LLM-driven scientific creativity.
Abstract（参考訳）: 人工知能が進歩するにつれて、モデルは一様に改善されていない。代わりに、進捗はジャグリング形式で展開され、タスク、ドメイン、モデルスケールにわたって不均一に成長する。本研究では,この動的ジャグネスを科学的アイデア生成のレンズを用いて検討する。 SciAidanBenchは、大規模言語モデル(LLM)の科学的創造性を測定するために設計された、オープンな科学的質問のベンチマークである。科学的疑問が与えられた場合、モデルは可能な限り多くのユニークで一貫性のあるアイデアを生成するように求められ、有効応答の総数は創造的ポテンシャルのプロキシとして機能する。 8つのプロバイダ(推論バージョンを含む30の合計変種)にわたる19のベースモデルを評価すると、ジャグネスはモデル全体とモデル内の両方に現れます。第一に、一般的な創造性と科学的創造性の比較において、一般的な創造性の改善は科学的創造性に一様に変換されず、モデル間で異なる能力プロファイルを明らかにする。第二に、迅速なレベルでは、より強力なモデルは均一に改善されない。第3に、ドメインレベルでは、個々のモデルは、断片化された内部能力プロファイルを反映して、科学的サブフィールドにわたって不均一な強度を示す。最後に、このジャグネスを活用できることを示します。我々は、推論時間計算、知識プーリング、ブレインストーミングのメカニズムを探求し、モデルを効果的に組み合わせ、どのモデルよりも優れたメタモデルアンサンブルを構築する。我々の結果は、ジャグネスを限界ではなく、リソースとして、LLMによる科学的創造性を増幅するAIの構造的特徴として位置づけている。

関連論文リスト

CREATE: Testing LLMs for Associative Creativity [51.64544603712446]
創造的連想的推論のためのモデルの能力を評価するためのベンチマークであるCREATEを紹介する。最強のモデルが他のモデルよりも高い創造性を達成することを示す。私たちの結果は、高いトークン予算であっても、思考モデルがタスクに対してより効果的であるとは限らないことを示しています。
論文参考訳（メタデータ） (2026-03-10T17:58:44Z)
Mind-Brush: Integrating Agentic Cognitive Search and Reasoning into Image Generation [47.97278965762397]
我々は、生成を動的で知識駆動のワークフローに変換する統合エージェントフレームワークであるMind-Brushを紹介します。人間のような「思考-研究-創造」パラダイムをシミュレートして、Mind-Brushは、分配の概念を根絶するために、マルチモーダルなエビデンスを積極的に回収する。大規模な実験により、Mind-Brushは統一モデルの能力を著しく向上させることが示された。
論文参考訳（メタデータ） (2026-02-02T07:42:13Z)
Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models [60.543714835980325]
人間は、これらのモデル内の概念を操作することによって、内的世界モデルと理性を構築する。近年のAIの進歩は、世界モデルが大きな言語モデルに埋め込まれていると信じられている人間の認知能力に近似している。本稿では,視覚生成が推論にどのような効果をもたらすかについて,最初の原理的考察を行った。
論文参考訳（メタデータ） (2026-01-27T17:40:07Z)
Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey [14.135916464098317]
大型言語モデル (LLMs) は科学的アイデアの有望な生成元として登場した。この調査は、科学的健全性による創造性へのアプローチの違いについて調査する。
論文参考訳（メタデータ） (2025-11-05T07:50:43Z)
CreativityPrism: A Holistic Benchmark for Large Language Model Creativity [64.18257552903151]
創造性はしばしば人間の知能の目印と見なされる。さまざまなシナリオにまたがってクリエイティビティを評価するための総合的なフレームワークはまだ存在しません。本稿では,創造性を質,新規性,多様性の3次元に分解する評価分析フレームワークであるCreativePrismを提案する。
論文参考訳（メタデータ） (2025-10-23T00:22:10Z)
LiveIdeaBench: Evaluating LLMs' Divergent Thinking for Scientific Idea Generation with Minimal Context [13.967898012303325]
我々は,Large Language Modelsの科学的アイデア生成を評価するベンチマークであるLiveIdeaBenchを紹介する。我々のベンチマークでは、最先端のLCMのダイナミックパネルを用いて、創発性、実現性、流布性、柔軟性、明快さの5つの重要な側面で生成されたアイデアを評価する。我々の結果は、QwQ-32B-previewのようなモデルが、一般的な知能スコアに大きな差があるにもかかわらず、claude-3.7-sonnet:thinkingのような上位モデルのモデルに匹敵する創造的なパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2024-12-23T14:13:44Z)
Creativity Has Left the Chat: The Price of Debiasing Language Models [1.223779595809275]
大規模言語モデル(LLM)の創造性に対する人間からのフィードバックからの強化学習の意図しない結果について検討する。我々の発見は、コピーライティング、広告作成、顧客ペルソナ生成といったクリエイティブなタスクにLLMを頼っているマーケターにとって大きな意味を持つ。
論文参考訳（メタデータ） (2024-06-08T22:14:51Z)
Can AI Be as Creative as Humans? [84.43873277557852]
理論的には、AIは人間の創造者によって生成されたデータに適切に適合できるという条件の下で、人間と同じくらい創造的になれることを証明しています。 AIの創造性に関する議論は、十分な量のデータに適合する能力の問題に縮小されている。
論文参考訳（メタデータ） (2024-01-03T08:49:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。