Fugu-MT 論文翻訳(概要): Benchmarking Language Model Creativity: A Case Study on Code Generation

論文の概要: Benchmarking Language Model Creativity: A Case Study on Code Generation

arxiv url: http://arxiv.org/abs/2407.09007v1
Date: Fri, 12 Jul 2024 05:55:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 00:36:46.067748
Title: Benchmarking Language Model Creativity: A Case Study on Code Generation
Title（参考訳）: ベンチマーク言語モデルの創造性:コード生成のケーススタディ
Authors: Yining Lu, Dixuan Wang, Tianjian Li, Dongwei Jiang, Daniel Khashabi,
Abstract要約: 創造性は少なくとも2つの重要な特徴から成り立っている: 啓発的思考(与えられた目標を達成するための目的性)と啓示的思考(新しい環境や制約への適応性) citeprunco 2003 クリティカル 2つの特徴を取り入れたLCM創造性を定量化する枠組みを提案する。これは、(1)デニアル・プロンプティング(Denial Prompting)は、従来のソリューションに新たな制約を漸進的に課すことによって、LLMが与えられた問題に対してより創造的な解決策を導き出すよう促す。
参考スコア（独自算出の注目度）: 17.56712029335294
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As LLMs become increasingly prevalent, it is interesting to consider how ``creative'' these models can be. From cognitive science, creativity consists of at least two key characteristics: \emph{convergent} thinking (purposefulness to achieve a given goal) and \emph{divergent} thinking (adaptability to new environments or constraints) \citep{runco2003critical}. In this work, we introduce a framework for quantifying LLM creativity that incorporates the two characteristics. This is achieved by (1) Denial Prompting pushes LLMs to come up with more creative solutions to a given problem by incrementally imposing new constraints on the previous solution, compelling LLMs to adopt new strategies, and (2) defining and computing the NeoGauge metric which examines both convergent and divergent thinking in the generated creative responses by LLMs. We apply the proposed framework on Codeforces problems, a natural data source for collecting human coding solutions. We quantify NeoGauge for various proprietary and open-source models and find that even the most creative model, GPT-4, still falls short of demonstrating human-like creativity. We also experiment with advanced reasoning strategies (MCTS, self-correction, etc.) and observe no significant improvement in creativity. As a by-product of our analysis, we release NeoCoder dataset for reproducing our results on future models.
Abstract（参考訳）: LLMが普及するにつれて、これらのモデルがいかに「創造的」であるかを考えることは興味深い。認知科学では、創造性は少なくとも2つの重要な特徴から構成される: \emph{convergent} 思考(与えられた目標を達成するための目的性)と \emph{divergent} 思考(新しい環境や制約への適応性) \citep{runco2003 critical} である。本稿では,2つの特徴を取り入れたLCM創造性を定量化する枠組みを提案する。本研究の成果は,1) 従来のソリューションに新たな制約を段階的に課すことにより, LLM がより創造的な解決策を導き出すように促すとともに, LLM が新たな戦略を採用するよう説得すること,2) LLM が生成した創造的応答における収束的思考と発散的思考の両方を考察するNeoGauge メトリクスの定義と計算によって達成される。我々は,人間のコーディングソリューションを収集する自然なデータソースであるCodeforces問題に対して,提案したフレームワークを適用した。さまざまなプロプライエタリなオープンソースモデルに対してNeoGaugeを定量化し、最も創造的なモデルであるGPT-4でさえ、人間のような創造性を実証するに足りていないことを発見した。また、先進的推論戦略(MCTS、自己補正など)も試行し、創造性に大きな改善は見つからない。分析の副産物として、将来のモデルで結果を再現するためのNeoCoderデータセットをリリースします。

関連論文リスト

Breaking Thought Patterns: A Multi-Dimensional Reasoning Framework for LLMs [3.5056249219229296]
大規模言語モデル(LLM)は、しばしば厳格な推論プロセスによって制約され、創造的な応答を生成する能力を制限する。これを解決するために、LADDERと呼ばれる新しいフレームワークを提案し、Chain-of-Thought(CoT)推論、Mixture of Experts(MoE)モデル、多次元アップ/ダウンサンプリング戦略を組み合わせた。
論文参考訳（メタデータ） (2025-06-16T07:59:51Z)
Probing and Inducing Combinational Creativity in Vision-Language Models [52.76981145923602]
VLM(Vision-Language Models)の最近の進歩は、それらのアウトプットが組合せの創造性を反映しているかという議論を引き起こしている。本稿では,創造的プロセスを3つのレベルに分解するIEIフレームワークを提案する。このフレームワークを検証するために、IEIフレームワークに従って注釈付けされた666人のアーティストによる視覚マッシュアップの高品質データセットであるCreativeMashupをキュレートする。
論文参考訳（メタデータ） (2025-04-17T17:38:18Z)
Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文参考訳（メタデータ） (2025-03-18T17:51:34Z)
A Causality-aware Paradigm for Evaluating Creativity of Multimodal Large Language Models [100.16387798660833]
オオギリゲーム(オオギリゲーム)は、ユーモアと連想的思考を必要とする創造的な仕事である。 LoTbenchはインタラクティブで因果性を考慮した評価フレームワークである。その結果、ほとんどのLLMは制約された創造性を示すが、LLMと人間の間の性能格差は克服できないことがわかった。
論文参考訳（メタデータ） (2025-01-25T09:11:15Z)
Unconstrained Model Merging for Enhanced LLM Reasoning [42.079040543428036]
複数のエキスパートモデルをひとつの大きな言語モデルにマージする可能性について検討する。等質なモデルアーキテクチャと異質なモデルアーキテクチャの両方に対応可能な,制約のないモデルマージフレームワークを提案する。 7つのベンチマークと9つの推論最適化LDMで、推論がマージから出現する重要な発見を明らかにする。
論文参考訳（メタデータ） (2024-10-17T16:04:07Z)
Cognitive LLMs: Towards Integrating Cognitive Architectures and Large Language Models for Manufacturing Decision-making [51.737762570776006]
LLM-ACTRは、ヒトに適応し、多目的な意思決定を提供する新しいニューロシンボリックアーキテクチャである。我々のフレームワークは、ACT-Rの内部決定過程の知識を潜在神経表現として抽出し、組み込む。デザイン・フォー・マニュファクチャリング・タスクに関する我々の実験は、タスク性能の向上と基礎的意思決定能力の向上を両立させたものである。
論文参考訳（メタデータ） (2024-08-17T11:49:53Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Creativity Has Left the Chat: The Price of Debiasing Language Models [1.223779595809275]
大規模言語モデル(LLM)の創造性に対する人間からのフィードバックからの強化学習の意図しない結果について検討する。我々の発見は、コピーライティング、広告作成、顧客ペルソナ生成といったクリエイティブなタスクにLLMを頼っているマーケターにとって大きな意味を持つ。
論文参考訳（メタデータ） (2024-06-08T22:14:51Z)
Divergent Creativity in Humans and Large Language Models [37.67363469600804]
最近の大規模言語モデルの能力の急上昇は、人間の能力に似た創造性レベルに近づいている、という主張につながっている。我々は、創造科学の最近の進歩を活用して、最先端のLLMと10万人の実質的なデータセットの両方において、多様な創造性を詳細に分析するためのフレームワークを構築します。
論文参考訳（メタデータ） (2024-05-13T22:37:52Z)
Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。 The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。 LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文参考訳（メタデータ） (2024-01-23T05:19:47Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
MacGyver: Are Large Language Models Creative Problem Solvers? [87.70522322728581]
本稿では, 現代LLMの創造的問題解決能力について, 制約付き環境下で検討する。我々は1,600以上の実世界の問題からなる自動生成データセットであるMACGYVERを作成する。我々はLLMと人間の両方にコレクションを提示し、それらの問題解決能力を比較して比較する。
論文参考訳（メタデータ） (2023-11-16T08:52:27Z)
The ART of LLM Refinement: Ask, Refine, and Trust [85.75059530612882]
ART: Ask, Refine, and Trust と呼ばれる改良目標を用いた推論を提案する。 LLMがいつその出力を洗練すべきかを決めるために必要な質問を尋ねる。自己補充ベースラインよりも+5ポイントの性能向上を達成する。
論文参考訳（メタデータ） (2023-11-14T07:26:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。