論文の概要: Pluto: A Benchmark for Evaluating Efficiency of LLM-generated Hardware Code
- arxiv url: http://arxiv.org/abs/2510.14756v1
- Date: Thu, 16 Oct 2025 14:57:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.912576
- Title: Pluto: A Benchmark for Evaluating Efficiency of LLM-generated Hardware Code
- Title(参考訳): Pluto: LLM生成ハードウェアコードの効率評価ベンチマーク
- Authors: Manar Abdelatty, Maryam Nouh, Jacob K. Rosenstein, Sherief Reda,
- Abstract要約: Plutoは、LCM生成したVerilog設計の効率を評価するために設計されたベンチマークおよび評価フレームワークである。
LLMは高い機能的正しさを達成でき、パス@1で78.3%に達するが、その合成効率は専門家による実装よりも遅れている。
- 参考スコア(独自算出の注目度): 2.8815599572682906
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used to automate hardware design tasks, including the generation of Verilog code. While early benchmarks focus primarily on functional correctness, efficient hardware design demands additional optimization for synthesis metrics such as area, delay, and power. Existing benchmarks fall short in evaluating these aspects comprehensively: they often lack optimized baselines or testbenches for verification. To address these gaps, we present Pluto, a benchmark and evaluation framework designed to assess the efficiency of LLM-generated Verilog designs. Pluto presents a comprehensive evaluation set of 114 problems with self-checking testbenches and multiple Pareto-optimal reference implementations. Experimental results show that state-of-the-art LLMs can achieve high functional correctness, reaching 78.3\% at pass@1, but their synthesis efficiency still lags behind expert-crafted implementations, with area efficiency of 63.8\%, delay efficiency of 65.9\%, and power efficiency of 64.0\% at eff@1. This highlights the need for efficiency-aware evaluation frameworks such as Pluto to drive progress in hardware-focused LLM research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、Verilogコードの生成を含むハードウェア設計タスクの自動化にますます利用されている。
初期のベンチマークは機能的正確性に重点を置いているが、効率的なハードウェア設計では、面積、遅延、パワーなどの合成指標にさらなる最適化が必要である。
既存のベンチマークは、これらの側面を包括的に評価するのに不足している。
これらのギャップに対処するために,LLM生成したVerilog設計の効率を評価するためのベンチマークおよび評価フレームワークであるPlutoを提案する。
Plutoは、自己チェックテストベンチと複数のPareto-Optimal参照実装で114の問題を総合的に評価する。
実験結果から,最先端のLCMは高機能化が可能であり,パス@1では78.3\%に達するが,その合成効率は,63.8\%の領域効率,65.9\%の遅延効率,eff@1では64.0\%の電力効率で,専門家による実装よりも遅れていることがわかった。
このことは、ハードウェアにフォーカスしたLLM研究の進展を促進するために、Plutoのような効率性を考慮した評価フレームワークの必要性を強調している。
関連論文リスト
- VeriOpt: PPA-Aware High-Quality Verilog Generation via Multi-Role LLMs [41.94295877935867]
VeriOptは、ロールベースのプロンプトとPPA対応最適化を利用して、高品質で合成可能なVerilogを生成する新しいフレームワークである。
私たちの研究は、正しさと品質の重大なギャップに対処することで、最先端のAI駆動型ハードウェア設計を前進させます。
論文 参考訳(メタデータ) (2025-07-20T00:28:55Z) - Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization [46.33639431414019]
大規模言語モデルは機能的に正しいソリューションを生成するが、コード効率が不足することが多い。
この問題に対処する新しいテストタイム反復最適化フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-29T12:14:29Z) - PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark [39.13045037676502]
大規模言語モデル(LLM)の開発は、プログラム合成のフロンティアを著しく押し上げている。
ほとんどの評価フレームワークは生成したコードの(機能的な)正しさに重点を置いています。
我々は,LLMの効率的なコード生成能力を評価するための厳格で高水準なベンチマークENAMELを開発した。
論文 参考訳(メタデータ) (2024-06-10T04:19:20Z) - Mercury: A Code Efficiency Benchmark for Code Large Language Models [41.51235610016959]
我々は、Large Language Models for Code (Code LLMs)の最初のコード効率ベンチマークであるMercuryを提示する。
1,889のPythonタスクで構成され、それぞれに現実の効率のベースラインとして機能する適切なソリューションが伴っている。
そこで我々は,機能的正当性とコード効率を同時に反映する,実行時毎のパススコアを計算する新たな指標Beyondを導入する。
論文 参考訳(メタデータ) (2024-02-12T17:53:22Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。