論文の概要: VFocus: Better Verilog Generation from Large Language Model via Focused Reasoning
- arxiv url: http://arxiv.org/abs/2511.02285v1
- Date: Tue, 04 Nov 2025 05:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.822729
- Title: VFocus: Better Verilog Generation from Large Language Model via Focused Reasoning
- Title(参考訳): VFocus: 集中型推論による大規模言語モデルによるベリログ生成の改善
- Authors: Zhuorui Zhao, Bing Li, Grace Li Zhang, Ulf Schlichtmann,
- Abstract要約: 大規模言語モデル(LLM)は、Verilogコードの生成において驚くべき可能性を示しているが、機能的正確性を保証することは依然として課題である。
本稿では,VFocusを提案する。VFocusは,LLM推論の焦点を重要な決定点に絞ることで,Verilog生成を強化する3段階のフレームワークである。
VerilogEval-Human ベンチマークの実験では、VFocus は複数の推論 LLM に対してパス@1 の正確性を大幅に改善している。
- 参考スコア(独自算出の注目度): 8.207258785260722
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have shown impressive potential in generating Verilog codes, but ensuring functional correctness remains a challenge. Existing approaches often rely on self-consistency or simulation feedback to select the best candidate, but they miss opportunities to focus LLM reasoning on the most informative parts of the design. We propose VFocus, a three-stage framework that enhances Verilog generation by sharpening the focus of LLM reasoning onto critical decision points in the code generation process. In the \textbf{pre-ranking stage}, VFocus generates multiple code candidates through LLM prompting, retries for syntactically valid outputs, and introduces a \textit{Density-guided Filtering} to retain candidates that fall within the "reasoning sweet spot" for functional correctness. In the \textbf{ranking stage}, we simulate each code candidate using an automatically generated testbench and apply self-consistency-based clustering to identify the most consistent outputs. Finally, in the \textbf{post-ranking refinement stage}, VFocus performs inconsistency mining on top-ranked candidates and invokes reasoning-augmented LLM prompts for candidate refinement. Experiments on the VerilogEval-Human benchmark show that VFocus significantly improves the pass@1 correctness across multiple reasoning LLMs, demonstrating its effectiveness in enhancing Verilog generation for complex hardware design tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、Verilogコードの生成において驚くべき可能性を示しているが、機能的正確性を保証することは依然として課題である。
既存のアプローチは、最良の候補を選択するために自己整合性やシミュレーションのフィードバックに頼っていることが多いが、LLM推論を設計の最も有益な部分に集中する機会を逃している。
本稿では,VFocusを提案する。VFocusは,コード生成プロセスにおいて重要な決定点にLLM推論の焦点を絞ることで,Verilog生成を強化する3段階フレームワークである。
textbf{pre- rank stage} では、VFocus は LLM のプロンプト、構文的に有効な出力の再試行を通じて複数のコード候補を生成し、機能的正しさのために "resoning sweet spot" に該当する候補を保持するために \textit{Density-guided Filtering} を導入している。
textbf{ ranking stage}では、自動生成されたテストベンチを使って各コード候補をシミュレートし、自己整合性に基づくクラスタリングを適用し、最も一貫性のある出力を識別する。
最後に、textbf{post- grade refinement stage} において、VFocus は上位の候補に対して一貫性のないマイニングを行い、候補の洗練のために推論強化 LLM プロンプトを実行する。
VerilogEval-Human ベンチマークの実験では、VFocus は複数の推論 LLM に対してパス@1 の正確性を大幅に改善し、複雑なハードウェア設計タスクに対してVerilog 生成を向上する効果を示した。
関連論文リスト
- Evaluating Large Language Models on Non-Code Software Engineering Tasks [4.381476817430934]
大規模言語モデル(LLM)は、コード理解と生成において顕著な能力を示している。
ソフトウェア工学言語理解(SELU)と呼ばれる最初の包括的なベンチマークを提示する。
SELUは、分類、回帰、名前付きエンティティ認識(NER)とマスケッド言語モデリング(MLM)のターゲットをカバーし、さまざまなソースからデータを引き出す。
論文 参考訳(メタデータ) (2025-06-12T15:52:32Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - LSR-MCTS: Alleviating Long Range Dependency in Code Generation [42.10272627826627]
大規模言語モデル(LLM)は、コード生成タスクの開発を著しく促進している。
本稿では,MCTS を利用した textbfLSR-MCTS アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-10T04:03:25Z) - Pragmatic Reasoning improves LLM Code Generation [35.78260347663757]
我々は,Rational Speech Act (RSA) フレームワーク上に構築された新しいコード候補付け機構であるCodeRSAを提案する。
我々は、人気のあるコード生成データセット上で、最新のLarge Language Modelの1つを用いてCodeRSAを評価する。
論文 参考訳(メタデータ) (2025-02-20T12:44:26Z) - Efficient Real-time Refinement of Language Model Text Generation [65.1937138219008]
大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。
重要な課題は、時に事実的に誤った答えを生じさせることである。
本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文 参考訳(メタデータ) (2025-01-14T03:59:48Z) - FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。
ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。
本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文 参考訳(メタデータ) (2024-10-15T21:48:57Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。