論文の概要: CreativEval: Evaluating Creativity of LLM-Based Hardware Code Generation
- arxiv url: http://arxiv.org/abs/2404.08806v1
- Date: Fri, 12 Apr 2024 20:41:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:42:32.664788
- Title: CreativEval: Evaluating Creativity of LLM-Based Hardware Code Generation
- Title(参考訳): CreativEval: LLMベースのハードウェアコード生成の創造性を評価する
- Authors: Matthew DeLorenzo, Vasudev Gohil, Jeyavijayan Rajendran,
- Abstract要約: 大規模言語モデル(LLM)は、コードを生成するのに効果的で効率的であることが証明されている。
CreativeEvalは、ハードウェア設計を作成するコンテキストにおけるLCMの創造性を評価するためのフレームワークである。
- 参考スコア(独自算出の注目度): 4.664950672096393
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have proved effective and efficient in generating code, leading to their utilization within the hardware design process. Prior works evaluating LLMs' abilities for register transfer level code generation solely focus on functional correctness. However, the creativity associated with these LLMs, or the ability to generate novel and unique solutions, is a metric not as well understood, in part due to the challenge of quantifying this quality. To address this research gap, we present CreativeEval, a framework for evaluating the creativity of LLMs within the context of generating hardware designs. We quantify four creative sub-components, fluency, flexibility, originality, and elaboration, through various prompting and post-processing techniques. We then evaluate multiple popular LLMs (including GPT models, CodeLlama, and VeriGen) upon this creativity metric, with results indicating GPT-3.5 as the most creative model in generating hardware designs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成において効率的かつ効率的であることが証明され、ハードウェア設計プロセス内での利用に繋がった。
LLMのレジスタ転送レベルのコード生成能力を評価する以前の研究は、機能的正確性のみに焦点を当てていた。
しかし、これらのLCMに関連する創造性や、新しくユニークなソリューションを生成する能力は、この品質を定量化することの難しさを理由として、あまりよく理解されていないメトリクスである。
この研究ギャップに対処するため,ハードウェア設計の文脈におけるLCMの創造性を評価するフレームワークであるCreativeEvalを提案する。
我々は、様々なプロンプトと後処理技術を用いて、4つの創造的サブコンポーネント、流布、柔軟性、独創性、そして実験を定量化する。
次に,GPTモデル,CodeLlama,VeriGenを含む複数の人気のあるLCMを評価し,GPT-3.5がハードウェア設計の最も創造的なモデルであることを示す。
関連論文リスト
- Precision or Peril: Evaluating Code Quality from Quantized Large Language Models [0.5249805590164902]
量子化は、大規模言語モデルのメモリオーバーヘッドを軽減する手段として登場した。
本研究の目的は、様々なメトリクスを用いて、より小さなLCMのコード生成能力を評価することである。
論文 参考訳(メタデータ) (2024-11-16T01:31:29Z) - The creative psychometric item generator: a framework for item generation and validation using large language models [1.765099515298011]
大規模な言語モデル(LLM)は、高い創造性を必要とする職場プロセスを自動化するために使われています。
我々は,創造的問題解決(CPS)タスクという,古典的な自由応答性創造性テストのためのテスト項目を作成するための心理的にインスパイアされたフレームワークを開発する。
CPIGが有効かつ信頼性の高い項目を生成し、この効果が評価過程における既知のバイアスに寄与しないという強い実証的証拠が得られた。
論文 参考訳(メタデータ) (2024-08-30T18:31:02Z) - Benchmarking Language Model Creativity: A Case Study on Code Generation [17.56712029335294]
創造性は少なくとも2つの重要な特徴から成り立っている: 啓発的思考(与えられた目標を達成するための目的性)と啓示的思考(新しい環境や制約への適応性) citeprunco 2003 クリティカル
2つの特徴を取り入れたLCM創造性を定量化する枠組みを提案する。
これは、(1)デニアル・プロンプティング(Denial Prompting)は、従来のソリューションに新たな制約を漸進的に課すことによって、LLMが与えられた問題に対してより創造的な解決策を導き出すよう促す。
論文 参考訳(メタデータ) (2024-07-12T05:55:22Z) - CodeEditorBench: Evaluating Code Editing Capability of Large Language Models [49.387195629660994]
コードのための大規模言語モデル(LLM)は急速に進化しており、コード編集が重要な機能として現れている。
コード編集タスクにおけるLLMの性能を厳格に評価するための評価フレームワークであるCodeEditorBenchを紹介する。
5つのソースからさまざまなコーディング課題やシナリオをキュレートし、さまざまなプログラミング言語、複雑性レベル、編集タスクをカバーしています。
論文 参考訳(メタデータ) (2024-04-04T15:49:49Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Improving Natural Language Capability of Code Large Language Model [13.639938216171185]
本稿では,AttentionExtractorとAttentionCoderという2つのモジュールからなる新しいフレームワークを提案する。
AttentionExtractorはユーザの自然言語要求からキーフレーズを抽出する役割を持ち、AttentionCoderは抽出したフレーズを利用してターゲットコードを生成する。
フレームワークの有効性を検証するため、5つの自然言語をカバーするMultiNL-Hという新しいコード生成ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-01-25T15:33:20Z) - Assessing and Understanding Creativity in Large Language Models [33.37237667182931]
本稿では,大規模言語モデル(LLM)における創造性レベルを評価するための効率的な枠組みを確立することを目的とする。
The Torrance Tests of Creative Thinking を用いて、7つのタスクにまたがる様々なLSMの創造的パフォーマンスを評価する。
LLMの創造性は、主に独創性に欠けるが、エラボレーションには優れていた。
論文 参考訳(メタデータ) (2024-01-23T05:19:47Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。
我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。
我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文 参考訳(メタデータ) (2023-05-23T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。