Fugu-MT 論文翻訳(概要): CraftRTL: High-quality Synthetic Data Generation for Verilog Code Models with Correct-by-Construction Non-Textual Representations and Targeted Code Repair

論文の概要: CraftRTL: High-quality Synthetic Data Generation for Verilog Code Models with Correct-by-Construction Non-Textual Representations and Targeted Code Repair

arxiv url: http://arxiv.org/abs/2409.12993v1
Date: Thu, 19 Sep 2024 12:15:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 12:25:44.106791
Title: CraftRTL: High-quality Synthetic Data Generation for Verilog Code Models with Correct-by-Construction Non-Textual Representations and Targeted Code Repair
Title（参考訳）: CraftRTL: 正しく構成された非テキスト表現とターゲットコード修復を備えたVerilogコードモデルのための高品質な合成データ生成
Authors: Mingjie Liu, Yun-Da Tsai, Wenfei Zhou, Haoxing Ren,
Abstract要約: 本稿では,従来手法の合成データを用いて,Verilog 符号化における微調整 LLM の解析を行った。我々は、非テクスト表現の扱いの困難さと、ランダムに「マイナー」ミスを犯すモデルによるトレーニング中の大きな変動の2つを識別する。我々の微調整されたStarcoder2-15Bは、VerilogEval-Machine, VerilogEval-Human, RTLLMで3.8%、10.9%、pass@1で6.6%、最先端の結果よりも優れています。
参考スコア（独自算出の注目度）: 4.554742043916029
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the significant progress made in code generation with large language models, challenges persist, especially with hardware description languages such as Verilog. This paper first presents an analysis of fine-tuned LLMs on Verilog coding, with synthetic data from prior methods. We identify two main issues: difficulties in handling non-textual representations (Karnaugh maps, state-transition diagrams and waveforms) and significant variability during training with models randomly making "minor" mistakes. To address these limitations, we enhance data curation by creating correct-by-construction data targeting non-textual representations. Additionally, we introduce an automated framework that generates error reports from various model checkpoints and injects these errors into open-source code to create targeted code repair data. Our fine-tuned Starcoder2-15B outperforms prior state-of-the-art results by 3.8%, 10.9%, 6.6% for pass@1 on VerilogEval-Machine, VerilogEval-Human, and RTLLM.
Abstract（参考訳）: 大きな言語モデルによるコード生成では大きな進歩があったが、特にVerilogのようなハードウェア記述言語では課題が続いている。本稿では,従来手法の合成データを用いて,Verilog 符号化における微調整 LLM の解析を行った。非テクスチャ表現(カルノー写像、状態遷移図、波形)を扱うことの難しさと、ランダムに「マイナー」誤りを犯すモデルを用いてトレーニングする際の大きなばらつきである。これらの制約に対処するために、テキスト以外の表現をターゲットとした正しい構成データを作成することにより、データキュレーションを強化する。さらに、さまざまなモデルチェックポイントからエラーレポートを生成し、これらのエラーをオープンソースコードに注入して、ターゲットとなるコード修復データを生成する自動フレームワークを導入する。我々の微調整されたStarcoder2-15Bは、VerilogEval-Machine, VerilogEval-Human, RTLLMで3.8%、10.9%、pass@1で6.6%、最先端の結果よりも優れています。

関連論文リスト

Speculative Decoding for Verilog: Speed and Quality, All in One [14.64921497909531]
本稿では,Verilogコード生成のための投機的復号法を提案する。標準的なトークン化方式とは異なり、我々の手法はデコード停止を構文的に重要なトークンと一致させる。実験の結果,Verilogのコード生成では最大5.05倍の高速化が達成された。
論文参考訳（メタデータ） (2025-03-18T11:21:53Z)
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文参考訳（メタデータ） (2025-03-04T19:17:36Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
DeepRTL: Bridging Verilog Understanding and Generation with a Unified Representation Model [13.532046953850902]
We present DeepRTL, a unified representation model that is excs in both Verilog understanding and generation。 CodeT5+に基づいて、DeepRTLは、Verilogコードをリッチでマルチレベルな自然言語記述と整合させる包括的なデータセットに基づいて微調整されている。我々はVerilog理解のための最初のベンチマークを導入し、埋め込み類似性とGPTスコアを適用してモデルの理解能力を評価する。
論文参考訳（メタデータ） (2025-02-20T11:07:55Z)
RIRO: Reshaping Inputs, Refining Outputs Unlocking the Potential of Large Language Models in Data-Scarce Contexts [0.0]
大規模言語モデル (LLM) は、テキスト生成、要約、質問応答といった分野において優れた、かなり高度な自然言語処理を持つ。それらの能力にもかかわらず、これらのモデルは、小さなドメイン固有のデータセットに微調整された場合、課題に直面します。本稿では,データスカース環境の性能向上を目的とした新しい2層アーキテクチャRIROを紹介する。
論文参考訳（メタデータ） (2024-12-15T15:48:37Z)
Contextualized Data-Wrangling Code Generation in Computational Notebooks [131.26365849822932]
我々は、マルチモーダルなコンテキスト依存を明確にしたデータラングリングコード生成例をマイニングするために、CoCoMineという自動アプローチを提案する。コンテクスト化されたデータラングリングコード生成のための58,221のサンプルを含むデータセットであるCoCoNoteをNotebooksで構築する。実験結果は、データラングリングコード生成にデータコンテキストを組み込むことの重要性を示す。
論文参考訳（メタデータ） (2024-09-20T14:49:51Z)
VerilogCoder: Autonomous Verilog Coding Agents with Graph-based Planning and Abstract Syntax Tree (AST)-based Waveform Tracing Tool [4.027984601764008]
We propose VerilogCoder, a system of multiple Artificial Intelligence (AI) agent for Verilog code generation。提案手法は、構文的に94.2%、機能的に正当なVerilogコードを生成する。
論文参考訳（メタデータ） (2024-08-15T20:06:06Z)
Data is all you need: Finetuning LLMs for Chip Design via an Automated design-data augmentation framework [50.02710905062184]
本稿では,Verilog と EDA スクリプトに適合する高ボリュームかつ高品質な自然言語を生成する自動設計データ拡張フレームワークを提案する。 Verilog生成の精度は現在の最先端のオープンソースVerilog生成モデルを超え、同じベンチマークで58.8%から70.6%に増加した。
論文参考訳（メタデータ） (2024-03-17T13:01:03Z)
Leveraging Print Debugging to Improve Code Generation in Large Language Models [63.63160583432348]
大規模言語モデル(LLM)はコード生成タスクにおいて大きな進歩を遂げた。しかし、複雑なデータ構造やアルゴリズムによるプログラミング問題に対処する彼らのパフォーマンスは、依然として準最適である。そこで本稿では,LLM のデバッグを "print debugging" 手法でガイドする,コンテキスト内学習手法を提案する。
論文参考訳（メタデータ） (2024-01-10T18:37:59Z)
Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation [32.178931149612644]
ulModel ulImprovement via ulNeuron ulTargeting (textscMINT)は、コード言語モデル(LM)を修復するための新しいアプローチである。 textscMINTは有効で効率的で信頼性が高く、最小数のニューロンにパッチを当てることで神経モデルを修正できる。
論文参考訳（メタデータ） (2023-12-08T20:28:08Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
VerilogEval: Evaluating Large Language Models for Verilog Code Generation [6.88526119890374]
本稿では,VerilogインストラクショナルWebサイトHDLBitsの156問題からなる総合評価データセットを提案する。評価セットは、単純な組合せ回路から複雑な有限状態マシンまで、様々なVerilogコード生成タスクからなる。
論文参考訳（メタデータ） (2023-09-14T09:15:34Z)
VeriGen: A Large Language Model for Verilog Code Generation [22.837558083876743]
GitHubとVerilogの教科書からコンパイルされたVerilogデータセット上に、既存のLarge Language Models(LLM)を微調整します。ここでは、細調整されたオープンソースのCodeGen-16Bモデルにより、商用のGPT-3.5-turboモデルよりも1.1%向上した。特に、様々な問題カテゴリにまたがって構文的に正しいVerilogコードを生成することで、事前訓練済みのVerilogコードよりも41%改善されている。
論文参考訳（メタデータ） (2023-07-28T02:57:14Z)
Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文参考訳（メタデータ） (2023-04-11T10:43:43Z)
Benchmarking Large Language Models for Automated Verilog RTL Code Generation [21.747037230069854]
有用なVerilogを生成するために,大規模言語モデル(LLM)を特徴付ける。機能解析のためのテストベンチと,Verilogコードの構文をテストするフローからなる評価フレームワークを構築した。その結果,LLMの微調整結果は,構文的に正しいコードを生成する能力が高いことがわかった。
論文参考訳（メタデータ） (2022-12-13T16:34:39Z)
Robust and Transferable Anomaly Detection in Log Data using Pre-Trained Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文参考訳（メタデータ） (2021-02-23T09:17:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。