Fugu-MT 論文翻訳(概要): Are LLMs Ready for Practical Adoption for Assertion Generation?

論文の概要: Are LLMs Ready for Practical Adoption for Assertion Generation?

arxiv url: http://arxiv.org/abs/2502.20633v1
Date: Fri, 28 Feb 2025 01:34:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.563499
Title: Are LLMs Ready for Practical Adoption for Assertion Generation?
Title（参考訳）: LLMはアサーション生成の実践的導入の準備が整っているか?
Authors: Vaishnavi Pulavarthi, Deeksha Nandal, Soham Dan, Debjit Pal,
Abstract要約: ハードウェア検証の品質、すなわちコーナーケース設計バグの検出と診断は、アサーションの品質に大きく依存する。 TransformersやLarge-Language Models (LLMs)のような生成AIが登場したことで、関数型およびセキュリティアサーションを生成する新しい、効果的でスケーラブルな技術の開発への関心が高まっている。
参考スコア（独自算出の注目度）: 6.3585378855805725
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Assertions have been the de facto collateral for simulation-based and formal verification of hardware designs for over a decade. The quality of hardware verification, i.e., detection and diagnosis of corner-case design bugs, is critically dependent on the quality of the assertions. With the onset of generative AI such as Transformers and Large-Language Models (LLMs), there has been a renewed interest in developing novel, effective, and scalable techniques of generating functional and security assertions from design source code. While there have been recent works that use commercial-of-the-shelf (COTS) LLMs for assertion generation, there is no comprehensive study in quantifying the effectiveness of LLMs in generating syntactically and semantically correct assertions. In this paper, we first discuss AssertionBench from our prior work, a comprehensive set of designs and assertions to quantify the goodness of a broad spectrum of COTS LLMs for the task of assertion generations from hardware design source code. Our key insight was that COTS LLMs are not yet ready for prime-time adoption for assertion generation as they generate a considerable fraction of syntactically and semantically incorrect assertions. Motivated by the insight, we propose AssertionLLM, a first of its kind LLM model, specifically fine-tuned for assertion generation. Our initial experimental results show that AssertionLLM considerably improves the semantic and syntactic correctness of the generated assertions over COTS LLMs.
Abstract（参考訳）: Assertionsは10年以上にわたって、シミュレーションベースのハードウェア設計の形式的検証のための事実上の担保であった。ハードウェア検証の品質、すなわちコーナーケース設計バグの検出と診断は、アサーションの品質に大きく依存する。 TransformersやLarge-Language Models (LLMs)のような生成AIが登場したことで、デザインソースコードから関数型およびセキュリティアサーションを生成する新しい、効果的でスケーラブルな技術の開発への関心が高まっている。商品棚(COTS)のLCMをアサーション生成に用いる研究は近年行われているが、構文的および意味論的に正しいアサーションを生成する上でのLCMの有効性を定量化するための包括的な研究はない。本稿では,ハードウェア設計ソースコードからアサーション生成を行うタスクにおいて,COTS LLMの幅広いスペクトルの良さを定量化するための設計とアサーションの包括的集合であるAssertionBenchについて述べる。我々の重要な洞察は、COTS LLMは、構文的にも意味的にも不正確なアサーションを生成するため、アサーション生成のプライムタイム採用の準備が整っていないことである。そこで本研究では,アサーション生成に特化して微調整されたLLMモデルであるAssertionLLMを提案する。最初の実験結果から,AssertionLLMはCOTS LLMに対して生成したアサーションのセマンティックおよび構文的正確性を大幅に向上することが示された。

関連論文リスト

LLM4VV: Evaluating Cutting-Edge LLMs for Generation and Evaluation of Directive-Based Parallel Programming Model Compiler Tests [7.6818904666624395]
本稿では,コンパイラテストの生成にLLMを用いたデュアルLLMシステムと実験について述べる。 LLMは、品質の高いコンパイラテストを生成し、それらを自動的に検証する有望な可能性を持っていることは明らかである。
論文参考訳（メタデータ） (2025-07-29T02:34:28Z)
Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文参考訳（メタデータ） (2025-06-16T10:32:10Z)
Real-time Verification and Refinement of Language Model Text Generation [60.04718679054704]
大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。重要な課題は、時に事実的に誤った答えを生じさせることである。本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文参考訳（メタデータ） (2025-01-14T03:59:48Z)
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文参考訳（メタデータ） (2024-11-29T12:21:15Z)
FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文参考訳（メタデータ） (2024-10-15T21:48:57Z)
Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。 LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文参考訳（メタデータ） (2024-10-05T05:21:48Z)
AssertionBench: A Benchmark to Evaluate Large-Language Models for Assertion Generation [6.3585378855805725]
本稿では,アサーション生成におけるLarge-Language Modelsの有効性を評価するための新しいベンチマークを提案する。 AssertioBenchにはOpenCoresから100のキュレートされたVerilogハードウェア設計が含まれており、GoldMineとHARMから生成された各設計について正式に承認されている。
論文参考訳（メタデータ） (2024-06-26T14:47:28Z)
ChIRAAG: ChatGPT Informed Rapid and Automated Assertion Generation [10.503097140635374]
ChIRAAGはOpenAI GPT4をベースとして、設計の自然言語仕様からSystem Verilog Assertion (SVA)を生成する。実験では、LSM生成した生のアサーションの27%に誤りがあり、数回の反復で修正された。以上の結果から,LLMはアサーション生成プロセスにおいて技術者を合理化し,支援し,検証を再構築できることが示唆された。
論文参考訳（メタデータ） (2024-01-31T12:41:27Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Prompting Large Language Models for Counterfactual Generation: An Empirical Study [13.506528217009507]
大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。本稿では,様々な種類のNLUタスクに対する総合的な評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-05-24T06:44:32Z)
Self-Checker: Plug-and-Play Modules for Fact-Checking with Large Language Models [75.75038268227554]
Self-Checkerはファクトチェックを容易にするプラグインとプレイモジュールからなるフレームワークである。このフレームワークは、低リソース環境でファクトチェックシステムを構築するための、高速で効率的な方法を提供する。
論文参考訳（メタデータ） (2023-05-24T01:46:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。