論文の概要: RuC: HDL-Agnostic Rule Completion Benchmark Generation
- arxiv url: http://arxiv.org/abs/2604.27780v1
- Date: Thu, 30 Apr 2026 12:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.081342
- Title: RuC: HDL-Agnostic Rule Completion Benchmark Generation
- Title(参考訳): RuC: HDLに依存しないルール補完ベンチマーク生成
- Authors: Arnau Ayguadé Domingo, Miquel Alberti-Binimelis, Cristian Gutierrez-Gomez, Emanuele Parisi, Razine Moundir Ghorab, Miquel Moreto, Gokcen Kestor, Dario Garcia-Gasulla,
- Abstract要約: 大規模言語モデル(LLM)は、コード関連のタスク間で急速にパフォーマンスが向上している。
言語に依存しないルール補完(RuC)のためのフレームワークを提案する。
RuCは、入力ハードウェア記述ソースのセットからRTLコード補完タスクを生成する。
- 参考スコア(独自算出の注目度): 1.8927558216457558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have rapidly improved in performance across code-related tasks, making their integration into Register Transfer Level (RTL) development increasingly attractive. Mimicking the behavior of inline code assistants, many benchmarks evaluate LLMs' capabilities in code completion, either assessing the generation of entire hardware modules or the completion of a single line within a module. However both of these approaches lack the ability to control the granularity of the code-completion sample size and the syntactic range of completions. To overcome these limitations, we present a framework for language-agnostic rule completion (RuC), a grammar-driven, rule-selectable benchmark generator that automatically produces RTL code-completion tasks from a set of input hardware description sources. RuC uses the target Hardware Description Language (HDL) grammar to mask syntactically defined code regions and prompts a model to regenerate them using the surrounding unmasked code as context, enabling a controlled and scalable evaluation of the domain-specific model's code-understanding capabilities, ranging from assignments to the reconstruction of entire logic blocks. We use RuC to generate two SystemVerilog rule-completion benchmarks from the Tiny Tapeout shuttle TT07 and the CVE2 RISC-V core to demonstrate RuC's applicability to a broad range of designs, and conduct a comparative study of the code completion capabilities of modern open-source LLMs across diverse settings. Results indicate that completion performance strongly depends on the model type, the grammatical structure of the masked region, and the prompting strategy. Specifically, the highest scores are obtained with Fill-in-the-Middle (FIM) prompting. These findings highlight the value of grammar-driven, arbitrarily granular benchmarks for meaningful evaluation of LLM capabilities in RTL development workflows.
- Abstract(参考訳): 大きな言語モデル(LLM)は、コード関連のタスク間で急速にパフォーマンスが向上し、レジスタ転送レベル(RTL)開発への統合がますます魅力的になっています。
インラインコードアシスタントの動作を模倣し、多くのベンチマークはLLMのコード補完能力を評価し、ハードウェアモジュール全体の生成やモジュール内の単一行の完了を評価する。
しかし、これら2つのアプローチには、コード補完サンプルサイズと構文的な完了範囲の粒度を制御できない。
これらの制約を克服するために,言語に依存しないルール補完(RuC)フレームワークを提案する。
RuCは、ターゲットのハードウェア記述言語(HDL)文法を使用して、構文的に定義されたコード領域をマスクし、周囲の未成熟のコードをコンテキストとしてモデルに再生させる。
我々は、RuCを使用して、Tiny Tapeout Shuttle TT07とCVE2 RISC-Vコアから2つのSystemVerilogルール補完ベンチマークを生成し、RuCが幅広い設計に適用可能であることを実証し、様々な設定でモダンなオープンソースLLMのコード補完機能の比較研究を行う。
その結果, 完成性能は, モデルタイプ, マスキング領域の文法構造, プロンプト戦略に強く依存していることが示唆された。
具体的には、最も高いスコアは、Fill-in-the-Middle(FIM)プロンプトによって得られる。
これらの結果は、RTL開発ワークフローにおけるLLM能力の有意な評価のための文法駆動型、任意の粒度ベンチマークの価値を強調した。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - DecoRTL: A Run-time Decoding Framework for RTL Code Generation with LLMs [0.0]
大規模言語モデル (LLM) は構造的あいまいさや意味的複雑さの領域において信頼性が低いことを示す。
本稿では,新しい実行時デコーディング戦略であるDecoRTLを紹介する。
私たちのアプローチは、追加のモデル微調整を必要とせずに、完全に推論時に動作します。
論文 参考訳(メタデータ) (2025-07-03T01:17:44Z) - SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。
ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文 参考訳(メタデータ) (2025-05-21T04:59:44Z) - RTLRepoCoder: Repository-Level RTL Code Completion through the Combination of Fine-Tuning and Retrieval Augmentation [6.428086269916113]
RTLRepoCoderは,レポジトリレベルのVerilogコード補完のために,特定の微調整および検索型拡張生成(RAG)を組み込んだ画期的なソリューションである。
提案手法は,GPT-4 および高度なドメイン固有 LLM の編集類似性および実行一致率を大幅に上回る,公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-11T09:04:50Z) - RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance [0.6062751776009752]
大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しています。
LLMはタスク記述に基づいてコードを生成することができるが、精度は限られている。
コード生成と自動デバッグのためのLLMエージェントの新しいアーキテクチャ:Refinement and Guidancebug (RGD)を紹介する。
RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。
論文 参考訳(メタデータ) (2024-10-02T05:07:02Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。