Fugu-MT 論文翻訳(概要): RTLRepoCoder: Repository-Level RTL Code Completion through the Combination of Fine-Tuning and Retrieval Augmentation

論文の概要: RTLRepoCoder: Repository-Level RTL Code Completion through the Combination of Fine-Tuning and Retrieval Augmentation

arxiv url: http://arxiv.org/abs/2504.08862v1
Date: Fri, 11 Apr 2025 09:04:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 03:13:56.635257
Title: RTLRepoCoder: Repository-Level RTL Code Completion through the Combination of Fine-Tuning and Retrieval Augmentation
Title（参考訳）: RTLRepoCoder:ファインチューニングと検索拡張を組み合わせたレポジトリレベルRTLコード補完
Authors: Peiyang Wu, Nan Guo, Junliang Lv, Xiao Xiao, Xiaochun Ye,
Abstract要約: RTLRepoCoderは,レポジトリレベルのVerilogコード補完のために,特定の微調整および検索型拡張生成(RAG)を組み込んだ画期的なソリューションである。提案手法は,GPT-4 および高度なドメイン固有 LLM の編集類似性および実行一致率を大幅に上回る,公開ベンチマークにおける最先端性能を実現する。
参考スコア（独自算出の注目度）: 6.428086269916113
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As an essential part of modern hardware design, manually writing Register Transfer Level (RTL) code such as Verilog is often labor-intensive. Following the tremendous success of large language models (LLMs), researchers have begun to explore utilizing LLMs for generating RTL code. However, current studies primarily focus on generating simple single modules, which can not meet the demands in real world. In fact, due to challenges in managing long-context RTL code and complex cross-file dependencies, existing solutions cannot handle large-scale Verilog repositories in practical hardware development. As the first endeavor to exclusively adapt LLMs for large-scale RTL development, we propose RTLRepoCoder, a groundbreaking solution that incorporates specific fine-tuning and Retrieval-Augmented Generation (RAG) for repository-level Verilog code completion. Open-source Verilog repositories from the real world, along with an extended context size, are used for domain-specific fine-tuning. The optimized RAG system improves the information density of the input context by retrieving relevant code snippets. Tailored optimizations for RAG are carried out, including the embedding model, the cross-file context splitting strategy, and the chunk size. Our solution achieves state-of-the-art performance on public benchmark, significantly surpassing GPT-4 and advanced domain-specific LLMs on Edit Similarity and Exact Match rate. Comprehensive experiments demonstrate the remarkable effectiveness of our approach and offer insights for future work.
Abstract（参考訳）: 現代のハードウェア設計の不可欠な部分として、Verilogのような手動でレジスタ転送レベル(RTL)コードを書くことは、しばしば労働集約的である。大規模言語モデル(LLM)が大成功し、研究者はLLMをRTLコードの生成に利用し始めている。しかし、最近の研究は主に、現実世界の要求を満たすことができない単純な単一モジュールの生成に焦点を当てている。実際、長いコンテキストのRTLコードと複雑なファイル間の依存関係を管理することの難しさから、既存のソリューションは、実用的なハードウェア開発において大規模なVerilogリポジトリを扱えない。大規模RTL開発にLLMを専ら適用する最初の取り組みとして,レポジトリレベルのVerilogコード補完のために,特定の微調整と検索値拡張生成(RAG)を組み込んだ基盤的ソリューションであるRTLRepoCoderを提案する。実世界のオープンソースVerilogリポジトリと拡張コンテキストサイズは、ドメイン固有の微調整に使用される。最適化されたRAGシステムは、関連するコードスニペットを取得することにより、入力コンテキストの情報密度を改善する。埋め込みモデル, ファイル間コンテキスト分割戦略, チャンクサイズなど, RAG の階層最適化を行う。提案手法は,GPT-4 および高度なドメイン固有 LLM の編集類似性および実行一致率を大幅に上回る,公開ベンチマークにおける最先端性能を実現する。総合的な実験は、我々のアプローチの顕著な効果を実証し、将来の仕事に対する洞察を提供する。

関連論文リスト

ComplexVCoder: An LLM-Driven Framework for Systematic Generation of Complex Verilog Code [9.68747119462712]
本稿では,複雑なVerilogコードの生成品質と効率を向上させるオープンソースフレームワークであるComplexVCoderを提案する。具体的には、中間表現を利用した2段階生成機構を導入し、より構造化された自然言語記述から複雑なVerilog設計への遷移を可能にする。さらに、ルールベースのアライメント手法とドメイン固有検索拡張生成(RAG)を導入し、合成コードの正確性をさらに向上する。
論文参考訳（メタデータ） (2025-04-29T11:22:06Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
RTL-Repo: A Benchmark for Evaluating LLMs on Large-Scale RTL Design Projects [0.02630859234884723]
大きな言語モデル (LLM) はレジスタ転送レベル (RTL) の設計タスクを支援する可能性を実証している。実際のRTLプロジェクトの複雑さを正確に反映したベンチマークには、大きなギャップがある。本稿では,大規模RTL設計プロジェクトにおけるLCM評価のためのベンチマークRTL-Repoを提案する。
論文参考訳（メタデータ） (2024-05-27T17:36:01Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
Enhancing LLM-Based Coding Tools through Native Integration of IDE-Derived Static Context [41.91246546266515]
我々は,統合開発環境(IDE)がリポジトリレベルのコード補完のために,直接的かつ正確かつリアルタイムなクロスファイル情報を提供できると主張している。本稿では,IDEネイティブな静的コンテキストをクロスコンテキスト構築に利用し,自己再定義のための診断結果を生成するフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-06T01:59:41Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
A Review of Repository Level Prompting for LLMs [0.0]
大規模言語モデル(LLM)は、HumanEvalベンチマークで94.6%の解決率を達成するなど、顕著な成功を収めている。 GitHub CopilotやTab Nineといったリポジトリレベルのインラインコード補完ツールの商用化が進んでいる。本稿では,個々のコーディング問題からリポジトリスケールソリューションへの移行について述べる。
論文参考訳（メタデータ） (2023-12-15T00:34:52Z)
Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。 LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文参考訳（メタデータ） (2023-04-10T09:55:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。