論文の概要: ChipCraftBrain: Validation-First RTL Generation via Multi-Agent Orchestration
- arxiv url: http://arxiv.org/abs/2604.19856v1
- Date: Tue, 21 Apr 2026 17:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.657211
- Title: ChipCraftBrain: Validation-First RTL Generation via Multi-Agent Orchestration
- Title(参考訳): ChipCraftBrain: マルチエージェントオーケストレーションによるバリデーションファーストRTL生成
- Authors: Cagri Eryilmaz,
- Abstract要約: MAGEのようなマルチエージェントのアプローチはVerilogEvalでは95.9%に達したが、厳しい産業ベンチマークではテストされていない。
本稿では,シンボリック・ニューラル推論と適応型マルチエージェントオーケストレーションを組み合わせた自動RTL生成フレームワークChipCraftBrainを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) show promise for generating Register-Transfer Level (RTL) code from natural language specifications, but single-shot generation achieves only 60-65% functional correctness on standard benchmarks. Multi-agent approaches such as MAGE reach 95.9% on VerilogEval yet remain untested on harder industrial benchmarks such as NVIDIA's CVDP, lack synthesis awareness, and incur high API costs. We present ChipCraftBrain, a framework combining symbolic-neural reasoning with adaptive multi-agent orchestration for automated RTL generation. Four innovations drive the system: (1) adaptive orchestration over six specialized agents via a PPO policy over a 168-dim state (an alternative world-model MPC planner is also evaluated); (2) a hybrid symbolic-neural architecture that solves K-map and truth-table problems algorithmically while specialized agents handle waveform timing and general RTL; (3) knowledge-augmented generation from a 321-pattern base plus 971 open-source reference implementations with focus-aware retrieval; and (4) hierarchical specification decomposition into dependency-ordered sub-modules with interface synchronization. On VerilogEval-Human, ChipCraftBrain achieves 97.2% mean pass@1 (range 96.15-98.72% across 7 runs, best 154/156), on par with ChipAgents (97.4%, self-reported) and ahead of MAGE (95.9%). On a 302-problem non-agentic subset of CVDP spanning five task categories, we reach 94.7% mean pass@1 (286/302, averaged over 3 runs), a 36-60 percentage-point lift per category over the published single-shot baseline; we additionally lead three of four categories shared with NVIDIA's ACE-RTL despite using roughly 30x fewer per-problem attempts. A RISC-V SoC case study demonstrates hierarchical decomposition generating 8/8 lint-passing modules (689 LOC) validated on FPGA, where monolithic generation fails entirely.
- Abstract(参考訳): 大きな言語モデル(LLM)は、自然言語仕様からレジスタ-トランスファーレベル(RTL)コードを生成することを約束している。
MAGEなどのマルチエージェントアプローチは、VerilogEvalで95.9%に達するが、NVIDIAのCVDPのようなより厳しい産業ベンチマーク、合成の認識の欠如、APIコストの増大など、まだテストされていない。
本稿では,シンボリック・ニューラル推論と適応型マルチエージェントオーケストレーションを組み合わせた自動RTL生成フレームワークChipCraftBrainを提案する。
1)168次元のPPOポリシー(代替の世界モデルMPCプランナも評価されている)による6つの特殊エージェントに対する適応的なオーケストレーション、(2)Kマップと真理テーブルの問題をアルゴリズム的に解決するハイブリッドシンボリックニューラルネットワークアーキテクチャ、(3)波形タイミングと一般RTLを扱う特殊エージェント、(3)321パターンベースと971のオープンソースリファレンス実装による知識強化、(4)インタフェース同期を伴う依存性順序付きサブモジュールへの階層的仕様分解。
VerilogEval-Humanでは、ChipCraftBrainは97.2%の平均パス@1(7ランで96.15-98.72%、ベスト154/156)、ChipAgents(97.4%、セルフレポーティング)、MAGE(95.9%)に匹敵する。
5つのタスクカテゴリにまたがる302プロブレムの非エージェントサブセットでは、94.7%の平均パス@1(286/302、平均3ラン)、発行されたシングルショットベースラインよりも36-60パーセンテージのリフト、さらに約30倍のパープロブレム試行にもかかわらずNVIDIAのACE-RTLと共有される4つのカテゴリのうち3つをリードする。
RISC-V SoCのケーススタディでは、FPGA上で検証された8/8リントパスモジュール(689 LOC)を生成する階層分解が、モノリシック生成を完全に失敗することを示した。
関連論文リスト
- Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - Synthesis-in-the-Loop Evaluation of LLMs for RTL Generation: Quality, Reliability, and Failure Modes [17.628790209793415]
We evaluate 32 language model on 202 Verilog task from VerilogEval and RTLLM。
13機のフロンティアがGlobal HQIを71以上、Gemini-3-Proが主導する。
195の真の合成失敗のツール適応分類は、系統的な分岐を示す。
論文 参考訳(メタデータ) (2026-03-11T20:26:58Z) - RepoGenesis: Benchmarking End-to-End Microservice Generation from Readme to Repository [52.98970048197381]
RepoGenesisは、リポジトリレベルのエンドツーエンドWebマイクロサービス生成のための、最初の多言語ベンチマークである。
18のドメインと11のフレームワークに106のリポジトリ(60のPython、46のJava)があり、1,258のAPIエンドポイントと2,335のテストケースが検証されている。
その結果、高いAC(最大73.91%)とDSR(最大100%)にもかかわらず、最高のパフォーマンスのシステムはPythonで23.67%のPass@1、Javaで21.45%しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2026-01-20T13:19:20Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - QiMeng-CodeV-R1: Reasoning-Enhanced Verilog Generation [51.393569044134445]
大きな言語モデル(LLM)は、強化学習と検証可能な報酬(RLVR)によって訓練され、明示的で自動化可能な検証を伴うタスクにおいてブレークスルーを達成した。
しかし、自然言語(NL)仕様からVerilogのようなハードウェア記述言語(HDL)を自動的に生成するRLVRの拡張には、3つの大きな課題がある。
本稿では,Verilog 生成 LLM をトレーニングするための RLVR フレームワークである CodeV-R1 を紹介する。
論文 参考訳(メタデータ) (2025-05-30T03:51:06Z) - LLM-Based Emulation of the Radio Resource Control Layer: Towards AI-Native RAN Protocols [28.04609776570199]
大型AIモデル(LAM)はAI-Native Air Interface(AI-AI)の重要な実現要因である
本稿では,デコーダのみのLAMを用いた無線リソース制御層の最初の標準準拠エミュレーションを提案する。
その結果,LSMをプロトコル対応推論で拡張すると,制御プレーンの手順を直接オーケストレーションできることがわかった。
論文 参考訳(メタデータ) (2025-05-22T15:55:56Z) - G-MSGINet: A Grouped Multi-Scale Graph-Involution Network for Contactless Fingerprint Recognition [20.458766184257147]
G-MSGINetは、接触レス指紋認識のための統一されたフレームワークである。
生の入力画像から直接、微妙な局所化とアイデンティティの埋め込みを共同で行う。
3つのベンチマークデータセットの大規模な実験は、G-MSGINetが97.0%から99.1%の範囲で0.83pm0.02$、ランク1の識別精度で一貫してF1スコアを達成していることを示している。
論文 参考訳(メタデータ) (2025-05-13T05:24:24Z) - Fully Autonomous Programming using Iterative Multi-Agent Debugging with Large Language Models [8.70160958177614]
大言語モデル(LLM)を用いたプログラム合成は「ニアミス症候群」に苦しむ
我々は、SEIDR(Synthesize, Execute, Instruct, Debug and repair)と呼ばれるマルチエージェントフレームワークでこの問題に対処する。
代替に焦点を当てた、修復に焦点を当てた、ハイブリッドなデバッグ戦略を比較することで、これらのトレードオフを実証的に探求します。
論文 参考訳(メタデータ) (2025-03-10T16:56:51Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。