Fugu-MT 論文翻訳(概要): Benchmarking Language Model Creativity: A Case Study on Code Generation

論文の概要: Benchmarking Language Model Creativity: A Case Study on Code Generation

arxiv url: http://arxiv.org/abs/2407.09007v2
Date: Sat, 08 Feb 2025 19:32:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:48.669008
Title: Benchmarking Language Model Creativity: A Case Study on Code Generation
Title（参考訳）: ベンチマーク言語モデルの創造性:コード生成のケーススタディ
Authors: Yining Lu, Dixuan Wang, Tianjian Li, Dongwei Jiang, Sanjeev Khudanpur, Meng Jiang, Daniel Khashabi,
Abstract要約: 本研究では,LLMの創造性を定量化するフレームワークを提案する。生成した創造的応答における収束的思考と発散的思考の両方を定量化する計量であるNEOGAUGEを定義する。我々はCodeforcesの問題に関する提案されたフレームワークをテストする。これは、タスクをコーディングするための自然なデータセットと、先行する人間のソリューションのコレクションの両方に役立ちます。
参考スコア（独自算出の注目度）: 39.546827184857754
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As LLMs become increasingly prevalent, it is interesting to consider how ``creative'' these models can be. From cognitive science, creativity consists of at least two key characteristics: \emph{convergent} thinking (purposefulness to achieve a given goal) and \emph{divergent} thinking (adaptability to explore new environments or constraints) \citep{runco2003critical}. In this work, we introduce a framework for quantifying LLM creativity that incorporates the two design ingredients: (1) We introduce DENIAL PROMPTING which pushes LLMs to develop more creative solutions to a given problem by incrementally imposing new constraints on the previous solution, compelling LLMs to adopt new strategies. (2) We define NEOGAUGE, a metric that quantifies both convergent and divergent thinking in the generated creative responses by LLMs. We test the proposed framework on Codeforces problems, which serve as both a natural dataset for coding tasks and a collection of prior human solutions. We quantify NEOGAUGE for various proprietary and open-source models and find that even the most creative model, GPT-4, still falls short of demonstrating human-like creativity. We also experiment with advanced reasoning strategies (MCTS, self-correction, etc.) and observe no significant improvement in creativity. As a by-product of our analysis, we release NEOCODER dataset for reproducing our results on future models.
Abstract（参考訳）: LLMが普及するにつれて、これらのモデルがいかに「創造的」であるかを考えることは興味深い。認知科学では、創造性は少なくとも2つの重要な特徴からなる: \emph{convergent} 思考(与えられた目標を達成するための目的)と \emph{divergent} 思考(新しい環境や制約を探索する適応性) \citep{runco2003 critical} である。本稿では, LLMの創造性を定量化するための枠組みを紹介する。(1) LLMに新たな制約を段階的に課すことにより, LLMがより創造的なソリューションを開発するように促すDENIAL PROMPTINGを導入し, LLMに新たな戦略を取り入れさせる。 2) NEOGAUGEは, LLMによって生成された創造的応答において, 収束的思考と発散的思考の両方を定量化する指標である。我々はCodeforcesの問題に関する提案されたフレームワークをテストする。これは、タスクをコーディングするための自然なデータセットと、先行する人間のソリューションのコレクションの両方に役立ちます。我々はNEOGAUGEを様々なプロプライエタリおよびオープンソースモデルで定量化し、最も創造的なモデルであるGPT-4でさえも、人間のような創造性を実証するに足りていないことを発見した。また、先進的推論戦略(MCTS、自己補正など)も試行し、創造性に大きな改善は見つからない。分析の副産物として、将来のモデルで結果を再現するためのNEOCODERデータセットをリリースする。

関連論文リスト

Divergent-Convergent Thinking in Large Language Models for Creative Problem Generation [22.659182231103443]
大規模言語モデル(LLM)は、教育的な問題や問題を生成でき、教育者が大規模な学習教材を作成できる。 LLMはArtificial Hivemindの効果によって制限され、同じモデル内で同様の応答を生成し、異なるモデル間で均質な出力を生成する。本稿では,LCMの推論を異なる位相に明確に把握する2相プロンプト法であるCreativeDCを提案する。
論文参考訳（メタデータ） (2025-12-29T16:53:48Z)
Combinatorial Creativity: A New Frontier in Generalization Abilities [14.121904952399975]
大規模言語モデル(LLM)における創造性のスケーリング挙動について検討する。固定的な計算予算では、創造力に最適なモデル深さと幅が存在することが分かりました。 LLMは新たな科学的アイデアの創出に長けつつ,現実的な実現性確保に苦慮しているため,創造性アルゴリズムの基本的な新規性・実用性トレードオフ特性によって説明できる可能性が示唆された。
論文参考訳（メタデータ） (2025-09-25T11:48:37Z)
Breaking Thought Patterns: A Multi-Dimensional Reasoning Framework for LLMs [3.5056249219229296]
大規模言語モデル(LLM)は、しばしば厳格な推論プロセスによって制約され、創造的な応答を生成する能力を制限する。これを解決するために、LADDERと呼ばれる新しいフレームワークを提案し、Chain-of-Thought(CoT)推論、Mixture of Experts(MoE)モデル、多次元アップ/ダウンサンプリング戦略を組み合わせた。
論文参考訳（メタデータ） (2025-06-16T07:59:51Z)
Probing and Inducing Combinational Creativity in Vision-Language Models [52.76981145923602]
VLM(Vision-Language Models)の最近の進歩は、それらのアウトプットが組合せの創造性を反映しているかという議論を引き起こしている。本稿では,創造的プロセスを3つのレベルに分解するIEIフレームワークを提案する。このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
論文参考訳（メタデータ） (2025-04-17T17:38:18Z)
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文参考訳（メタデータ） (2025-03-18T17:51:34Z)
A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。 LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文参考訳（メタデータ） (2025-01-25T09:11:15Z)
Unconstrained Model Merging for Enhanced LLM Reasoning [42.079040543428036]
複数のエキスパートモデルをひとつの大きな言語モデルにマージする可能性について検討する。等質なモデルアーキテクチャと異質なモデルアーキテクチャの両方に対応可能な,制約のないモデルマージフレームワークを提案する。 7つのベンチマークと9つの推論最適化LDMで、推論がマージから出現する重要な発見を明らかにする。
論文参考訳（メタデータ） (2024-10-17T16:04:07Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Creativity Has Left the Chat: The Price of Debiasing Language Models [1.223779595809275]
大規模言語モデル(LLM)の創造性に対する人間からのフィードバックからの強化学習の意図しない結果について検討する。我々の発見は、コピーライティング、広告作成、顧客ペルソナ生成といったクリエイティブなタスクにLLMを頼っているマーケターにとって大きな意味を持つ。
論文参考訳（メタデータ） (2024-06-08T22:14:51Z)
Divergent Creativity in Humans and Large Language Models [37.67363469600804]
最近の大規模言語モデルの能力の急上昇は、人間の能力に似た創造性レベルに近づいている、という主張につながっている。我々は、創造科学の最近の進歩を活用して、最先端のLLMと10万人の実質的なデータセットの両方において、多様な創造性を詳細に分析するためのフレームワークを構築します。
論文参考訳（メタデータ） (2024-05-13T22:37:52Z)
Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。 The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。 LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文参考訳（メタデータ） (2024-01-23T05:19:47Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文参考訳（メタデータ） (2023-11-16T08:52:27Z)
The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。 LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文参考訳（メタデータ） (2023-11-14T07:26:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。