論文の概要: LLM-FSM: Scaling Large Language Models for Finite-State Reasoning in RTL Code Generation
- arxiv url: http://arxiv.org/abs/2602.07032v1
- Date: Tue, 03 Feb 2026 04:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.381312
- Title: LLM-FSM: Scaling Large Language Models for Finite-State Reasoning in RTL Code Generation
- Title(参考訳): LLM-FSM: RTLコード生成における有限状態推論のための大規模言語モデルのスケーリング
- Authors: Yuheng Wu, Berk Gokmen, Zhouhua Xie, Peijing Li, Caroline Trippel, Priyanka Raina, Thierry Tambe,
- Abstract要約: LLM-FSMは,大規模言語モデル (LLM) が有限状態マシン (FSM) の動作をどの程度回復できるかを評価するベンチマークである。
手動で構築された例に依存する以前の仕様-RTLベンチマークとは異なり、LLM-FSMは完全に自動化されたパイプラインで構築されている。
- 参考スコア(独自算出の注目度): 3.4714122723537333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finite-state reasoning, the ability to understand and implement state-dependent behavior, is central to hardware design. In this paper, we present LLM-FSM, a benchmark that evaluates how well large language models (LLMs) can recover finite-state machine (FSM) behavior from natural-language specifications and translate it into correct register transfer-level (RTL) implementations. Unlike prior specification-to-RTL benchmarks that rely on manually constructed examples, LLM-FSM is built through a fully automated pipeline. LLM-FSM first constructs FSM with configurable state counts and constrained transition structures. It then prompts LLMs to express each FSM in a structured YAML format with an application context, and to further convert that YAML into a natural-language (NL) specification. From the same YAML, our pipeline synthesizes the reference RTL and testbench in a correct-by-construction manner. All 1,000 problems are verified using LLM-based and SAT-solver-based checks, with human review on a subset. Our experiments show that even the strongest LLMs exhibit sharply declining accuracy as FSM complexity increases. We further demonstrate that training-time scaling via supervised fine-tuning (SFT) generalizes effectively to out-of-distribution (OOD) tasks, while increasing test-time compute improves reasoning reliability. Finally, LLM-FSM remains extensible by allowing its FSM complexity to scale with future model capabilities.
- Abstract(参考訳): 状態に依存した振る舞いを理解し実装する機能である有限状態推論は、ハードウェア設計の中心である。
本稿では,LLM-FSMを提案する。LLM-FSMは,大規模言語モデル(LLM)が自然言語仕様から有限状態機械(FSM)の動作を回復し,それをRTL(レジスタ転送レベル)の正しい実装に変換することができるかを評価するベンチマークである。
手動で構築された例に依存する以前の仕様-RTLベンチマークとは異なり、LLM-FSMは完全に自動化されたパイプラインで構築されている。
LLM-FSMは、設定可能な状態カウントと制約付き遷移構造を持つFSMを最初に構築する。
その後、LLMはアプリケーションコンテキストで構造化YAML形式で各FSMを表現し、そのYAMLを自然言語(NL)仕様に変換するよう促す。
同じYAMLから、我々のパイプラインは参照RTLとテストベンチを正しい構成で合成する。
LLMベースとSAT-solverベースのチェックを使用して1000の問題を検証し、サブセットに対する人間によるレビューを行う。
実験の結果,最強のLSMでもFSMの複雑性が増大するにつれて,精度が著しく低下することがわかった。
さらに、教師付き微調整(SFT)によるトレーニング時間スケーリングは、アウト・オブ・ディストリビューション(OOD)タスクに効果的に一般化し、テスト時間計算の増大により推論信頼性が向上することを示した。
最後に、LLM-FSMは将来のモデル機能でFSMの複雑さを拡張可能である。
関連論文リスト
- AutoFSM: A Multi-agent Framework for FSM Code Generation with IR and SystemC-Based Testing [2.5793366206387827]
本稿では,有限状態機械(FSM)コード生成タスクのための協調的フレームワークであるAutoFSMを提案する。
AutoFSMは、コード生成時の構文エラー率を低減するために、構造的に明確な中間表現(IR)を導入している。
SystemCベースのモデリングと自動テストベンチ生成を統合するのはこれが初めてである。
論文 参考訳(メタデータ) (2025-12-12T09:15:46Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Stacking Small Language Models for Generalizability [0.0]
大規模言語モデル(LLM)は、異なる自然言語ベンチマークで強いパフォーマンスを一般化する。
本稿では,言語モデルの微調整スタック (FSLM) と呼ばれる新しいアプローチを提案する。
特定のタスクを実行するために各SLMを微調整することにより、このアプローチは、特定のSLMが責任を負う複数の低レベルステップに高レベル推論を分解する。
その結果、FSLMはトレーニングと推論のコストを低減し、各SLMが後続のSLMと自然言語を介して通信するので、モデルの解釈性を向上させることができる。
論文 参考訳(メタデータ) (2024-10-21T01:27:29Z) - Logic Distillation: Learning from Code Function by Function for Decision-making Tasks [71.08128339865428]
大規模言語モデル(LLM)は、その強力な論理的推論能力のために注目を集めている。
知識蒸留(KD)は、L-LLMsの能力をS-LLMsに与えることを目的としており、S-LLMsは単にL-LLMsの出力を模倣するだけである。
本稿では, 論理蒸留 (LD) と呼ばれる新しいフレームワークを提案し, その課題に対処する。
論文 参考訳(メタデータ) (2024-07-28T05:34:42Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Translating Regulatory Clauses into Executable Codes for Building Design Checking via Large Language Model Driven Function Matching and Composing [8.293447126161475]
本稿では,規則に基づく適応的プロンプトを用いた大規模言語モデル (LLM) に基づく手法を提案する。
LLM-FuncMapperは関数マッチングにおいて19%の精度で微調整を行う。
ケーススタディでは、LLM-FuncMapperが複数のアトミック関数を自動生成して実行可能なコードを生成することができる。
論文 参考訳(メタデータ) (2023-08-17T01:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。