論文の概要: MetRex: A Benchmark for Verilog Code Metric Reasoning Using LLMs
- arxiv url: http://arxiv.org/abs/2411.03471v1
- Date: Tue, 05 Nov 2024 19:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:23:03.441826
- Title: MetRex: A Benchmark for Verilog Code Metric Reasoning Using LLMs
- Title(参考訳): MetRex: LLMを使用したVerilogコードメトリクス推論のベンチマーク
- Authors: Manar Abdelatty, Jingxiao Ma, Sherief Reda,
- Abstract要約: 大規模言語モデル(LLM)は、Verilogコード生成、EDAツールスクリプティング、RTLバグ修正など、様々なハードウェア設計タスクに適用されている。
本稿では,LLMがVerilog設計の合成後メトリクスを推論する能力を評価する。
MetRexは25,868のVerilog HDL設計とそれに対応する合成後測定値(面積,遅延,静的パワー)からなる大規模データセットである。
- 参考スコア(独自算出の注目度): 2.0921175288836746
- License:
- Abstract: Large Language Models (LLMs) have been applied to various hardware design tasks, including Verilog code generation, EDA tool scripting, and RTL bug fixing. Despite this extensive exploration, LLMs are yet to be used for the task of post-synthesis metric reasoning and estimation of HDL designs. In this paper, we assess the ability of LLMs to reason about post-synthesis metrics of Verilog designs. We introduce MetRex, a large-scale dataset comprising 25,868 Verilog HDL designs and their corresponding post-synthesis metrics, namely area, delay, and static power. MetRex incorporates a Chain of Thought (CoT) template to enhance LLMs' reasoning about these metrics. Extensive experiments show that Supervised Fine-Tuning (SFT) boosts the LLM's reasoning capabilities on average by 37.0\%, 25.3\%, and 25.7\% on the area, delay, and static power, respectively. While SFT improves performance on our benchmark, it remains far from achieving optimal results, especially on complex problems. Comparing to state-of-the-art regression models, our approach delivers accurate post-synthesis predictions for 17.4\% more designs (within a 5\% error margin), in addition to offering a 1.7x speedup by eliminating the need for pre-processing. This work lays the groundwork for advancing LLM-based Verilog code metric reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、Verilogコード生成、EDAツールスクリプティング、RTLバグ修正など、様々なハードウェア設計タスクに適用されている。
この広範な探査にもかかわらず、LLMは合成後のメートル法推論やHDL設計の推定にはまだ使われていない。
本稿では,LLMがVerilog設計の合成後メトリクスを推論する能力を評価する。
MetRexは25,868のVerilog HDL設計とそれに対応する合成後測定値(面積,遅延,静的パワー)からなる大規模データセットである。
MetRexにはChain of Thought(CoT)テンプレートが組み込まれており、これらのメトリクスに対するLCMの推論を強化している。
大規模な実験により、スーパーバイザード・ファイン・チューニング(SFT)はLLMの推理能力を平均37.0\%、25.3\%、25.7\%向上させることが示された。
SFTはベンチマークのパフォーマンスを向上するが、特に複雑な問題において最適な結果を得るには程遠い。
現状の回帰モデルと比較して,本手法は前処理の必要性を排除して1.7倍の高速化を提供するとともに,17.4 %以上の設計(5 %の誤差マージンを含む)に対して正確な合成後予測を行う。
この研究は、LLMベースのVerilogコードメトリクス推論の進展の基礎となる。
関連論文リスト
- Can EDA Tool Feedback Improve Verilog Generation by LLMs? [25.596711210493172]
大きな言語モデル(LLM)は、完全に機能するHDLコードを生成するための潜在的なツールとして現れています。
電子設計自動化(EDA)ツールからのフィードバックを利用して,自作のVerilogの誤りを修正できることを評価する。
論文 参考訳(メタデータ) (2024-11-01T17:33:28Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。
本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T17:16:03Z) - DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。
具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。
このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文 参考訳(メタデータ) (2024-06-25T04:27:53Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - LLMParser: An Exploratory Study on Using Large Language Models for Log Parsing [8.647406441990396]
ログ解析にLarge Language Models (LLMs) を用いることの可能性を検討した。
例えば、Flan-T5-baseはLLaMA-7Bに匹敵する結果を短時間で達成する。
また,他のシステムからのログを用いて事前学習したLLMを用いることで,解析精度が向上するとは限らない。
論文 参考訳(メタデータ) (2024-04-27T20:34:29Z) - Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks [12.629516072317331]
Syntax-Aware Fill-in-the-Middle (SAFIM)は、コードFill-in-the-Middle(FIM)タスク上でLLM(Large Language Models)を評価するための新しいベンチマークである。
このベンチマークは、コードブロックや条件式などのプログラム構造の構文対応補完に焦点を当てている。
論文 参考訳(メタデータ) (2024-03-07T05:05:56Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Benchmarking Causal Study to Interpret Large Language Models for Source
Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文 参考訳(メタデータ) (2023-08-23T20:32:12Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。