論文の概要: PyraNet: A Multi-Layered Hierarchical Dataset for Verilog
- arxiv url: http://arxiv.org/abs/2412.06947v1
- Date: Mon, 09 Dec 2024 19:45:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:38:05.179256
- Title: PyraNet: A Multi-Layered Hierarchical Dataset for Verilog
- Title(参考訳): PyraNet: Verilog用の多層階層データセット
- Authors: Bardia Nadimi, Ghali Omar Boutaib, Hao Zheng,
- Abstract要約: 我々は、PiraNetと呼ぶ多層構造を利用した、新しいオープンソースデータセットとそれに対応する微調整技術を紹介する。
実験により、提案したデータセットと微調整アプローチを用いることで、より正確な微調整モデルが得られ、構文的に、機能的に正しいVerilogコードを生成することが示された。
- 参考スコア(独自算出の注目度): 4.590930025882158
- License:
- Abstract: Recently, there has been a growing interest in leveraging Large Language Models for Verilog code generation. However, the current quality of the generated Verilog code remains suboptimal. This is largely due to the absence of well-defined, well-organized datasets with high-quality samples, as well as a lack of innovative fine-tuning methods and models specifically trained on Verilog. In this paper, we introduce a novel open-source dataset and a corresponding fine-tuning technique, which utilizes a multi-layered structure that we refer to as PyraNet. Our experiments demonstrate that employing the proposed dataset and fine-tuning approach leads to a more accurate fine-tuned model, producing syntactically and functionally correct Verilog code. The evaluation results show improvements by up-to $32.6\%$ in comparison to the CodeLlama-7B baseline model and up-to $16.7\%$ in comparison to the state-of-the-art models using VerilogEval evaluation platform.
- Abstract(参考訳): 近年、Verilogコード生成にLarge Language Modelsを活用することへの関心が高まっている。
しかし、生成したVerilogコードの現在の品質は、依然として準最適である。
これは主に、高品質なサンプルを持つ明確に定義された、組織化されたデータセットがないことと、Verilogで特別に訓練された革新的な微調整方法やモデルがないことによる。
本稿では,PiraNetと呼ばれる多層構造を用いた新しいオープンソースデータセットとそれに対応する微調整手法を提案する。
提案したデータセットと微調整手法を用いることで,より高精度な微調整モデルが実現し,構文的かつ機能的にVerilogコードを生成できることを実証した。
評価結果は、CodeLlama-7Bベースラインモデルと比較して32.6\%、VerilogEval評価プラットフォームを使用した最先端モデルに比べて16.7\%改善されている。
関連論文リスト
- Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists [41.94295877935867]
データサイエンスにおける最も知識集約的な課題の1つに取り組むために設計された,大規模言語モデルのベンチマークを示す。
提案手法のFeatEngは,LLMの幅広い能力を安価かつ効率的に評価できることを実証する。
論文 参考訳(メタデータ) (2024-10-30T17:59:01Z) - CraftRTL: High-quality Synthetic Data Generation for Verilog Code Models with Correct-by-Construction Non-Textual Representations and Targeted Code Repair [4.554742043916029]
本稿では,従来手法の合成データを用いて,Verilog 符号化における微調整 LLM の解析を行った。
我々は、非テクスト表現の扱いの困難さと、ランダムに「マイナー」ミスを犯すモデルによるトレーニング中の大きな変動の2つを識別する。
我々の微調整されたStarcoder2-15Bは、VerilogEval-Machine, VerilogEval-Human, RTLLMで3.8%、10.9%、pass@1で6.6%、最先端の結果よりも優れています。
論文 参考訳(メタデータ) (2024-09-19T12:15:55Z) - A Multi-Expert Large Language Model Architecture for Verilog Code Generation [5.159745269633967]
本稿では,Verilog Code Generation (MEV-LLM) のための,革新的なマルチエキスパート LLM アーキテクチャを提案する。
我々のアーキテクチャは、複数のLCMを一意に統合しており、それぞれが、異なるレベルの設計複雑さに対して分類されたデータセットで微調整されている。
実験から得られた実証的な証拠は、構文的に、機能的に正しい生成したVerilog出力の比率において顕著な改善点を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-04-11T16:58:29Z) - Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。
Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文 参考訳(メタデータ) (2024-03-17T13:01:03Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - VerilogEval: Evaluating Large Language Models for Verilog Code
Generation [6.88526119890374]
本稿では,VerilogインストラクショナルWebサイトHDLBitsの156問題からなる総合評価データセットを提案する。
評価セットは、単純な組合せ回路から複雑な有限状態マシンまで、様々なVerilogコード生成タスクからなる。
論文 参考訳(メタデータ) (2023-09-14T09:15:34Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - CodeExp: Explanatory Code Document Generation [94.43677536210465]
既存のコード・トゥ・テキスト生成モデルは、コードの高レベルな要約のみを生成する。
我々は、コードのための高品質な説明記述の基準を特定するために、人間の研究を行う。
タスクのための多段階微調整戦略とベースラインモデルを提案する。
論文 参考訳(メタデータ) (2022-11-25T18:05:44Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Logic2Text: High-Fidelity Natural Language Generation from Logical Forms [84.5687465831598]
我々は、制御可能、高忠実、忠実な世代を得るため、論理形式から生成する論理レベル NLG を定式化する。
提案する大規模データセットは TextscLogic2Text で,10,753 個の共通論理型を基礎となる論理形式と組み合わせて記述する。
論文 参考訳(メタデータ) (2020-04-30T04:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。