Fugu-MT 論文翻訳(概要): MetRex: A Benchmark for Verilog Code Metric Reasoning Using LLMs

論文の概要: MetRex: A Benchmark for Verilog Code Metric Reasoning Using LLMs

arxiv url: http://arxiv.org/abs/2411.03471v1
Date: Tue, 05 Nov 2024 19:52:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.782926
Title: MetRex: A Benchmark for Verilog Code Metric Reasoning Using LLMs
Title（参考訳）: MetRex: LLMを使用したVerilogコードメトリクス推論のベンチマーク
Authors: Manar Abdelatty, Jingxiao Ma, Sherief Reda,
Abstract要約: 大規模言語モデル(LLM)は、Verilogコード生成、EDAツールスクリプティング、RTLバグ修正など、様々なハードウェア設計タスクに適用されている。本稿では,LLMがVerilog設計の合成後メトリクスを推論する能力を評価する。 MetRexは25,868のVerilog HDL設計とそれに対応する合成後測定値(面積,遅延,静的パワー)からなる大規模データセットである。
参考スコア（独自算出の注目度）: 2.0921175288836746
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) have been applied to various hardware design tasks, including Verilog code generation, EDA tool scripting, and RTL bug fixing. Despite this extensive exploration, LLMs are yet to be used for the task of post-synthesis metric reasoning and estimation of HDL designs. In this paper, we assess the ability of LLMs to reason about post-synthesis metrics of Verilog designs. We introduce MetRex, a large-scale dataset comprising 25,868 Verilog HDL designs and their corresponding post-synthesis metrics, namely area, delay, and static power. MetRex incorporates a Chain of Thought (CoT) template to enhance LLMs' reasoning about these metrics. Extensive experiments show that Supervised Fine-Tuning (SFT) boosts the LLM's reasoning capabilities on average by 37.0\%, 25.3\%, and 25.7\% on the area, delay, and static power, respectively. While SFT improves performance on our benchmark, it remains far from achieving optimal results, especially on complex problems. Comparing to state-of-the-art regression models, our approach delivers accurate post-synthesis predictions for 17.4\% more designs (within a 5\% error margin), in addition to offering a 1.7x speedup by eliminating the need for pre-processing. This work lays the groundwork for advancing LLM-based Verilog code metric reasoning.
Abstract（参考訳）: 大規模言語モデル(LLM)は、Verilogコード生成、EDAツールスクリプティング、RTLバグ修正など、様々なハードウェア設計タスクに適用されている。この広範な探査にもかかわらず、LLMは合成後のメートル法推論やHDL設計の推定にはまだ使われていない。本稿では,LLMがVerilog設計の合成後メトリクスを推論する能力を評価する。 MetRexは25,868のVerilog HDL設計とそれに対応する合成後測定値(面積,遅延,静的パワー)からなる大規模データセットである。 MetRexにはChain of Thought(CoT)テンプレートが組み込まれており、これらのメトリクスに対するLCMの推論を強化している。大規模な実験により、スーパーバイザード・ファイン・チューニング(SFT)はLLMの推理能力を平均37.0\%、25.3\%、25.7\%向上させることが示された。 SFTはベンチマークのパフォーマンスを向上するが、特に複雑な問題において最適な結果を得るには程遠い。現状の回帰モデルと比較して,本手法は前処理の必要性を排除して1.7倍の高速化を提供するとともに,17.4 %以上の設計(5 %の誤差マージンを含む)に対して正確な合成後予測を行う。この研究は、LLMベースのVerilogコードメトリクス推論の進展の基礎となる。

関連論文リスト

SymRTLO: Enhancing RTL Code Optimization with LLMs and Neuron-Inspired Symbolic Reasoning [18.40402135952776]
本稿では,新しいニューロン-シンボリックRTL最適化フレームワークであるSymRTLOを提案する。有限状態機械(FSM)論理の解析と最適化のための記号モジュールを提案する。 Synopsys Design Compiler と Yosys による RTL-Rewriter ベンチマークの実験では、SymRTLO は 43.9% と 62.5% と 51.1% に向上している。
論文参考訳（メタデータ） (2025-04-14T16:15:55Z)
Can Reasoning Models Reason about Hardware? An Agentic HLS Perspective [18.791753740931185]
OpenAI o3-mini と DeepSeek-R1 は Chain-of-Thought (CoT) を通じて推論を強化している本稿では, LLM の推論が高レベル合成(HLS)設計空間探索と最適化の課題に対処できるかどうかを検討する。
論文参考訳（メタデータ） (2025-03-17T01:21:39Z)
VeriMind: Agentic LLM for Automated Verilog Generation with a Novel Evaluation Metric [4.590930025882158]
We propose VeriMind, a agentic LLM framework for Verilog code generation。本稿では,従来のpass@k測度とARC(Average Refinement Cycles)を組み合わせた新しい評価手法を提案する。様々なハードウェア設計タスクの実験結果によると、我々のアプローチはpass@kメトリックで最大8.3%、pass@ARCメトリックで最大8.1%向上した。
論文参考訳（メタデータ） (2025-03-15T23:43:06Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Can EDA Tool Feedback Improve Verilog Generation by LLMs? [25.596711210493172]
大きな言語モデル(LLM)は、完全に機能するHDLコードを生成するための潜在的なツールとして現れています。電子設計自動化(EDA)ツールからのフィードバックを利用して,自作のVerilogの誤りを修正できることを評価する。
論文参考訳（メタデータ） (2024-11-01T17:33:28Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Applying RLAIF for Code Generation with API-usage in Lightweight LLMs [15.366324461797582]
Reinforcement Learning from AI Feedback (RLAIF)は、さまざまな領域で大きな可能性を証明している。本稿では,軽量 (1B パラメータ) LLM のコード生成能力を改善するための RLAIF フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-28T17:16:03Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
LLMParser: An Exploratory Study on Using Large Language Models for Log Parsing [8.647406441990396]
ログ解析にLarge Language Models (LLMs) を用いることの可能性を検討した。例えば、Flan-T5-baseはLLaMA-7Bに匹敵する結果を短時間で達成する。また,他のシステムからのログを用いて事前学習したLLMを用いることで,解析精度が向上するとは限らない。
論文参考訳（メタデータ） (2024-04-27T20:34:29Z)
Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks [12.629516072317331]
Syntax-Aware Fill-in-the-Middle (SAFIM)は、コードFill-in-the-Middle(FIM)タスク上でLLM(Large Language Models)を評価するための新しいベンチマークである。このベンチマークは、コードブロックや条件式などのプログラム構造の構文対応補完に焦点を当てている。
論文参考訳（メタデータ） (2024-03-07T05:05:56Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
Benchmarking Causal Study to Interpret Large Language Models for Source Code [6.301373791541809]
本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
論文参考訳（メタデータ） (2023-08-23T20:32:12Z)
Scaling Relationship on Learning Mathematical Reasoning with Large Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文参考訳（メタデータ） (2023-08-03T15:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。