Fugu-MT 論文翻訳(概要): OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection

論文の概要: OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection

arxiv url: http://arxiv.org/abs/2407.16237v2
Date: Mon, 2 Sep 2024 07:25:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-04 17:11:28.210886
Title: OriGen:Enhancing RTL Code Generation with Code-to-Code Augmentation and Self-Reflection
Title（参考訳）: OriGen: Code-to-Code AugmentationとセルフリフレクションによるRTLコード生成の強化
Authors: Fan Cui, Chenyang Yin, Kexing Zhou, Youwei Xiao, Guangyu Sun, Qiang Xu, Qipeng Guo, Demin Song, Dahua Lin, Xingcheng Zhang, Yun, Liang,
Abstract要約: OriGenは、セルフリフレクション機能と新しいデータセット拡張方法論を組み込んだ、完全なオープンソースフレームワークである。このアプローチでは,オープンソースのRTLコードデータセットの品質向上のために,コード-コード拡張技術を採用している。
参考スコア（独自算出の注目度）: 54.775409528658486
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent studies have demonstrated the significant potential of Large Language Models (LLMs) in generating Register Transfer Level (RTL) code, with notable advancements showcased by commercial models such as GPT-4 and Claude3-Opus. However, these proprietary LLMs often raise concerns regarding privacy and security. While open-source LLMs offer solutions to these concerns, they typically underperform commercial models in RTL code generation tasks, primarily due to the scarcity of high-quality open-source RTL datasets. To address this challenge, we introduce OriGen , a fully open-source framework that incorporates self-reflection capabilities and a novel dataset augmentation methodology for generating high-quality, large-scale RTL code. Our approach employs a code-tocode augmentation technique to enhance the quality of open-source RTL code datasets. Furthermore, OriGen can rectify syntactic errors through a self-reflection process that leverages compiler feedback. Experimental results demonstrate that OriGen significantly outperforms other open-source alternatives in RTL code generation. It surpasses the previous best-performing open-source LLM by 12.8% and even exceeds GPT-4 Turbo in the pass@1 metric on the VerilogEval-Human benchmark. Moreover, OriGen exhibits superior capabilities in self-reflection and error correction, outperforming GPT-4 by 19.9% on a benchmark designed to evaluate self-reflection capabilities.
Abstract（参考訳）: 近年,GPT-4やClaude3-Opusといった商業モデルで顕著な進歩が見られるように,登録転送レベル(RTL)コードの生成において,LLM(Large Language Models)が有意な可能性を実証している。しかしながら、これらのプロプライエタリなLSMは、プライバシとセキュリティに関する懸念を引き起こすことが多い。オープンソースのLLMはこれらの問題に対する解決策を提供するが、RTLコード生成タスクでは、主に高品質のオープンソースRTLデータセットが不足しているため、商用モデルよりもパフォーマンスが低いのが一般的である。この課題に対処するために,自己回帰機能を組み込んだオープンソースフレームワークであるOriGenと,高品質で大規模なRTLコードを生成するための新たなデータセット拡張手法を紹介する。提案手法では,オープンソースのRTLコードデータセットの品質向上のために,コード-コード拡張手法を用いている。さらに、OriGenは、コンパイラフィードバックを活用するセルフリフレクションプロセスを通じて、構文エラーを修正できる。実験の結果、OriGenはRTLコード生成において、他のオープンソース代替よりも大幅に優れていることが示された。 VerilogEval-Humanベンチマークのpass@1メトリックでは、GPT-4 Turboを12.8%上回っている。さらに、OriGenは自己回帰と誤り訂正の優れた能力を示し、自己回帰能力を評価するために設計されたベンチマークでGPT-4を19.9%上回っている。

関連論文リスト

ChipSeek-R1: Generating Human-Surpassing RTL with LLM via Hierarchical Reward-Driven Reinforcement Learning [32.11086992218369]
ChipSeek-R1は、大規模な言語モデルのための階層的な報酬駆動強化学習フレームワークである。関数的正当性とPPA最適化の両方のRTLコードを生成する。 RTLLMのベンチマークでは、ChipSeek-R1はオリジナルの人間の書いたコードのPPAメトリクスを超える27のRTL設計を作成した。
論文参考訳（メタデータ） (2025-07-07T08:08:20Z)
RTL++: Graph-enhanced LLM for RTL Code Generation [0.0]
従来のレジスタ転送レベル (RTL) の設計手法は手作業で、時間がかかり、エラーを起こしやすい。オープンソースモデルは代替手段を提供するが、品質や正確性に欠けることが多い。本稿では RTL コード生成のための LLM 支援手法 RTL++ を提案する。
論文参考訳（メタデータ） (2025-05-11T00:17:26Z)
LIFT: LLM-Based Pragma Insertion for HLS via GNN Supervised Fine-Tuning [38.679497621876926]
LIFTは大規模な言語モデル(LLM)ベースのHLSのためのコーディングアシスタントで、パフォーマンスクリティカルなプラグマを自動的に生成する。我々は、グラフニューラルネットワーク(GNN)でトレーニングプロセスを密に統合し、監督することにより、LSMを微調整する。
論文参考訳（メタデータ） (2025-04-29T21:42:59Z)
Optimizing Knowledge Integration in Retrieval-Augmented Generation with Self-Selection [72.92366526004464]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) がより正確で信頼性の高い応答を生成するのに有効であることが証明されている。本稿では,自己選択型RAGフレームワークを提案する。このフレームワークでは,内部パラメトリック知識のみで生成されたペアの応答からLLMを選択できる。
論文参考訳（メタデータ） (2025-02-10T04:29:36Z)
EDA-Aware RTL Generation with Large Language Models [0.7831852829409273]
LLM(Large Language Models)は、RTLコードを生成するために人気が高まっている。ゼロショット設定でエラーのないRTLコードを生成することは、最先端のLLMでも非常に難しい。本稿では,構文と機能的エラーの反復的修正によるRTLコード生成の高速化を目的とした,自己検証型LLM非依存型エージェントフレームワークであるAIvril2を紹介する。
論文参考訳（メタデータ） (2024-11-21T00:37:51Z)
ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation [31.363781211927947]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。 LLMはコード生成時にエラーの蓄積に影響を受けやすい。コード生成のためのLLMにバックトラック機構とプログラム解析を統合したROCODEを提案する。
論文参考訳（メタデータ） (2024-11-11T16:39:13Z)
CodeLutra: Boosting LLM Code Generation via Preference-Guided Refinement [32.46078765471136]
我々は、低パフォーマンスな大規模言語モデルを強化する新しいフレームワークであるCodeLutraを紹介する。従来の微調整とは異なり、CodeLutraは正しい解と間違った解を比較するために反復的な選好学習メカニズムを採用している。挑戦的なデータ分析タスクでは、わずか500個のサンプルを使用して、Llama-3-8Bの精度を28.2%から48.6%に改善し、GPT-4の性能に接近した。
論文参考訳（メタデータ） (2024-11-07T21:51:07Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
AIvril: AI-Driven RTL Generation With Verification In-The-Loop [0.7831852829409273]
LLM(Large Language Models)は、複雑な自然言語処理タスクを実行できる計算モデルである。本稿では,RTL対応LLMの精度と信頼性を高めるためのフレームワークであるAIvrilを紹介する。
論文参考訳（メタデータ） (2024-09-03T15:07:11Z)
AutoVCoder: A Systematic Framework for Automated Verilog Code Generation using LLMs [27.179391677757565]
我々は,Verilogコード生成の正確性を大幅に向上するフレームワークであるAutoVCoderを開発した。本フレームワークは,高品質なハードウェアデータセット生成手法を含む3つの新しい手法を統合する。 AutoVCoderは、BetterVと比較して、EvalMachineとEvalHumanのベンチマークで機能的正しさが0.5%と2.2%向上している。
論文参考訳（メタデータ） (2024-07-21T16:42:45Z)
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。 RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。 ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文参考訳（メタデータ） (2024-06-28T01:44:57Z)
UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models [88.16197692794707]
UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
論文参考訳（メタデータ） (2024-06-27T07:56:44Z)
DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文参考訳（メタデータ） (2024-02-27T12:26:07Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文参考訳（メタデータ） (2023-11-25T02:45:50Z)
Evaluating Diverse Large Language Models for Automatic and General Bug Reproduction [12.851941377433285]
大規模言語モデル(LLM)は自然言語処理やコード生成に適していることが証明されている。提案手法は,広く使用されているDefects4Jベンチマークにおいて,全バグの約3分の1を再現することができた。
論文参考訳（メタデータ） (2023-11-08T08:42:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。