Fugu-MT 論文翻訳(概要): Revisiting VerilogEval: Newer LLMs, In-Context Learning, and Specification-to-RTL Tasks

論文の概要: Revisiting VerilogEval: Newer LLMs, In-Context Learning, and Specification-to-RTL Tasks

arxiv url: http://arxiv.org/abs/2408.11053v1
Date: Tue, 20 Aug 2024 17:58:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 12:35:03.891539
Title: Revisiting VerilogEval: Newer LLMs, In-Context Learning, and Specification-to-RTL Tasks
Title（参考訳）: VerilogEvalを再考する: より新しいLLM、文脈内学習、仕様からRTLへのタスク
Authors: Nathaniel Pinckney, Christopher Batten, Mingjie Liu, Haoxing Ren, Brucek Khailany,
Abstract要約: 改良されたVerilogEvalベンチマークスイートに対して,様々なサイズの商用およびオープンソースモデルの評価を行った。 GPT-4 Turboは,仕様からRTLタスクにおいて59%のパスレートを達成した。また、オープンソースおよびドメイン固有モデルの性能について検討し、モデルがICLから大きな恩恵を受けることを実証する。
参考スコア（独自算出の注目度）: 6.463959200930805
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The application of large-language models (LLMs) to digital hardware code generation is an emerging field. Most LLMs are primarily trained on natural language and software code. Hardware code, such as Verilog, represents only a small portion of the training data and few hardware benchmarks exist. To address this gap, the open-source VerilogEval benchmark was released in 2023, providing a consistent evaluation framework for LLMs on code completion tasks. It was tested on state-of-the-art models at the time including GPT-4. However, VerilogEval and other Verilog generation benchmarks lack failure analysis and, in present form, are not conducive to exploring prompting techniques. Also, since VerilogEval's release, both commercial and open-source models have seen continued development. In this work, we evaluate new commercial and open-source models of varying sizes against an improved VerilogEval benchmark suite. We enhance VerilogEval's infrastructure and dataset by automatically classifying failures, introduce new prompts for supporting in-context learning (ICL) examples, and extend the supported tasks to specification-to-RTL translation. We find a measurable improvement in commercial state-of-the-art models, with GPT-4 Turbo achieving a 59% pass rate on spec-to-RTL tasks. We also study the performance of open-source and domain-specific models that have emerged, and demonstrate that models can benefit substantially from ICL. We find that recently-released Llama 3.1 405B achieves a pass rate of 58%, effectively matching that of GPT-4 Turbo, and that the much smaller domain-specific RTL-Coder 6.7B models achieve an impressive 37% pass rate. However, prompt engineering is key to achieving good pass rates, and varies widely with model and task. A benchmark infrastructure that allows for prompt engineering and failure analysis is key to continued model development and deployment.
Abstract（参考訳）: 大規模言語モデル(LLM)をデジタルハードウェアコード生成に適用することは、新たな分野である。ほとんどのLLMは、主に自然言語とソフトウェアコードに基づいて訓練されている。 Verilogのようなハードウェアコードはトレーニングデータのごく一部しか表現せず、ハードウェアベンチマークはほとんど存在しない。このギャップに対処するため、オープンソースのVerilogEvalベンチマークが2023年にリリースされた。 GPT-4を含む当時の最先端のモデルで試験された。しかし、VerilogEvalや他のVerilog生成ベンチマークには障害解析が欠如しており、現在の形式では、プロンプト技術を探究するには適していない。また、VerilogEvalのリリース以来、商用モデルとオープンソースモデルの両方が引き続き開発されている。本研究では,改良されたVerilogEvalベンチマークスイートに対して,様々なサイズの商用およびオープンソースモデルの評価を行う。エラーを自動的に分類することでVerilogEvalのインフラストラクチャとデータセットを強化し、コンテキスト内学習(ICL)の例をサポートする新しいプロンプトを導入し、サポート対象タスクを仕様からRTLへの変換に拡張する。 GPT-4 Turboは,仕様からRTLタスクにおいて59%のパスレートを達成した。また、オープンソースおよびドメイン固有モデルの性能について検討し、モデルがICLから大きな恩恵を受けることを実証する。最近リリースされたLlama 3.1 405B は GPT-4 Turbo のパスレート 58% を達成し、はるかに小さなドメイン固有の RTL-Coder 6.7B モデルでは37% のパスレートを達成している。しかし、プロンプトエンジニアリングは優れたパスレートを達成するための鍵であり、モデルやタスクによって大きく異なる。迅速なエンジニアリングと障害解析を可能にするベンチマークインフラストラクチャは、継続的なモデル開発とデプロイメントの鍵となる。

関連論文リスト

Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Enhancing Large Language Models for Hardware Verification: A Novel SystemVerilog Assertion Dataset [3.8212435331909256]
**VERT**は、LLMを用いたSystemVerilogアサーション生成を強化するために設計されたオープンソースのデータセットである。学術と産業の研究者たちが、オープンソースモデルを微調整し、精度と効率の両方で、より大きなプロプライエタリモデルよりも優れています。
論文参考訳（メタデータ） (2025-03-11T22:13:26Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
CodeSteer: Symbolic-Augmented Language Models via Code/Text Guidance [12.001043263281698]
既存のメソッドは、テキスト推論とコード生成の間に大きな言語モデル(LLM)を操ることができない。我々は、LLMコード/テキスト生成を導く効果的な方法であるCodeSteerを紹介する。 GPT-4oをCodeSteerで強化すると、平均的なパフォーマンススコアが53.3から86.4に上昇する。
論文参考訳（メタデータ） (2025-02-04T15:53:59Z)
Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文参考訳（メタデータ） (2024-11-23T08:06:06Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
Can EDA Tool Feedback Improve Verilog Generation by LLMs? [25.596711210493172]
大きな言語モデル(LLM)は、完全に機能するHDLコードを生成するための潜在的なツールとして現れています。電子設計自動化(EDA)ツールからのフィードバックを利用して,自作のVerilogの誤りを修正できることを評価する。
論文参考訳（メタデータ） (2024-11-01T17:33:28Z)
FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文参考訳（メタデータ） (2024-10-15T21:48:57Z)
Large Language Models as Code Executors: An Exploratory Study [29.545321608864295]
本稿では,Large Language Models (LLM) をコードエグゼキュータとして探索する。 OpenAIのo1、GPT-4o、GPT-3.5、DeepSeek、Qwen-Coderなど、さまざまなLLMでこの実現可能性を調べています。我々は,コードスニペットを行単位で処理し,弱いモデルの精度を平均7.22%向上させるIIP(Iterative Instruction Prompting)技術を導入する。
論文参考訳（メタデータ） (2024-10-09T08:23:22Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Large Language Model for Verilog Generation with Golden Code Feedback [29.135207235743795]
本研究は,ゴールドコードフィードバックを用いた強化学習を利用して,事前学習モデルの性能を向上させる手法を提案する。我々は、最先端のSOTA(State-of-the-art)の結果をかなりの差で達成した。特に、我々の6.7Bパラメータモデルは、現行の13Bモデルと16Bモデルと比較して優れた性能を示している。
論文参考訳（メタデータ） (2024-07-21T11:25:21Z)
DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。 DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文参考訳（メタデータ） (2024-06-07T19:38:05Z)
Exploring the Impact of the Output Format on the Evaluation of Large Language Models for Code Translation [8.81447711370817]
我々は、11の人気のある命令付き大規模言語モデル(LLM)の出力を経験的に分析する。この結果から,プロンプトエンジニアリングと正規表現の戦略的組み合わせにより,モデル生成出力からソースコードを効果的に抽出できることが示唆された。
論文参考訳（メタデータ） (2024-03-25T21:41:31Z)
SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。 FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文参考訳（メタデータ） (2024-03-23T14:04:48Z)
Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。 Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文参考訳（メタデータ） (2024-03-17T13:01:03Z)
LLM4PLC: Harnessing Large Language Models for Verifiable Programming of PLCs in Industrial Control Systems [9.946058168276744]
LLM(Large Language Models)は、PLC(Programmable Logic Controllers)が運用する産業制御システム(ICS)のための有効なプログラムを作成できない。本稿では,ユーザフィードバックと文法チェック,コンパイラ,SMV検証などの外部検証ツールを活用したユーザガイド型反復パイプラインを提案する。 GPT-3.5, GPT-4, Code Llama-7B, Code Llama-34B, Code Llama-34Bで完全なテストスイートを実行する。
論文参考訳（メタデータ） (2024-01-08T23:52:42Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
Adapting Large Language Models for Content Moderation: Pitfalls in Data Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文参考訳（メタデータ） (2023-10-05T09:09:44Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。