Fugu-MT 論文翻訳(概要): Efficient Stimuli Generation using Reinforcement Learning in Design Verification

論文の概要: Efficient Stimuli Generation using Reinforcement Learning in Design Verification

arxiv url: http://arxiv.org/abs/2405.19815v1
Date: Thu, 30 May 2024 08:23:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 15:18:46.798094
Title: Efficient Stimuli Generation using Reinforcement Learning in Design Verification
Title（参考訳）: 設計検証における強化学習を用いた効率的な刺激生成
Authors: Deepak Narayan Gadde, Thomas Nalapat, Aman Kumar, Djones Lettnin, Wolfgang Kunz, Sebastian Simon,
Abstract要約: Reinforcement Learning (RL) は、Reinforcement Learning (RL) の助けを借りて効率的な刺激を生成するために提案され、Design Under Verification (DUV) の最大コードカバレッジに到達する。本稿では,Reinforcement Learning (RL) の助けを借りて効率的な刺激を生成する手法を提案する。
参考スコア（独自算出の注目度）: 2.9652396326501864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasing design complexity of System-on-Chips (SoCs) has led to significant verification challenges, particularly in meeting coverage targets within a timely manner. At present, coverage closure is heavily dependent on constrained random and coverage driven verification methodologies where the randomized stimuli are bounded to verify certain scenarios and to reach coverage goals. This process is said to be exhaustive and to consume a lot of project time. In this paper, a novel methodology is proposed to generate efficient stimuli with the help of Reinforcement Learning (RL) to reach the maximum code coverage of the Design Under Verification (DUV). Additionally, an automated framework is created using metamodeling to generate a SystemVerilog testbench and an RL environment for any given design. The proposed approach is applied to various designs and the produced results proves that the RL agent provides effective stimuli to achieve code coverage faster in comparison with baseline random simulations. Furthermore, various RL agents and reward schemes are analyzed in our work.
Abstract（参考訳）: System-on-Chips (SoCs) の設計の複雑さが増すにつれ、特に時間的にカバー対象を満たす場合、大きな検証問題が発生している。現在、カバレッジクロージャは制約付きランダムおよびカバレッジ駆動型検証手法に大きく依存しており、ランダム化された刺激は特定のシナリオを検証し、カバレッジ目標に達するために境界づけられている。このプロセスは徹底的であり、多くのプロジェクト時間を消費すると言われている。本稿では,Reinforcement Learning (RL) の助けを借りて効率的な刺激を生成する手法を提案する。さらに、メタモデリングを使用して自動フレームワークを作成して、任意の設計のためのSystemVerilogテストベンチとRL環境を生成する。提案手法は様々な設計に適用され,RLエージェントがベースラインランダムシミュレーションと比較してコードカバレッジを高速化する効果的な刺激を与えることを示す。さらに, 各種RLエージェントと報奨スキームを本研究で分析した。

関連論文リスト

Fake it till You Make it: Reward Modeling as Discriminative Prediction [49.31309674007382]
GAN-RMは、手動の嗜好アノテーションと明示的な品質次元工学を排除した効率的な報酬モデリングフレームワークである。提案手法は,少数の対象サンプルを識別し,報酬モデルを訓練する。実験では、GAN-RMが複数の主要なアプリケーションにまたがって有効であることを実証した。
論文参考訳（メタデータ） (2025-06-16T17:59:40Z)
CORE: Constraint-Aware One-Step Reinforcement Learning for Simulation-Guided Neural Network Accelerator Design [3.549422886703227]
COREはシミュレーション誘導DSEのための制約対応一段階強化学習法である。ニューラルネットワークアクセラレーターのハードウェアマッピング共同設計のためのCOREをインスタンス化する。
論文参考訳（メタデータ） (2025-06-04T01:08:34Z)
Generative Reliability-Based Design Optimization Using In-Context Learning Capabilities of Large Language Models [0.8356765961526956]
LLM(Large Language Models)は、コンテキスト内学習機能を示す。本稿では,LLMの文脈内学習機能を活用した生成設計手法を提案する。
論文参考訳（メタデータ） (2025-03-28T13:10:04Z)
Optimizing Coverage-Driven Verification Using Machine Learning and PyUVM: A Novel Approach [2.3624953088402734]
System-on-Chip(SoC)設計の複雑さは、検証のボトルネックを生み出した。既存の検証技術は、時間と冗長なシミュレーションの回帰に依存する。シミュレーション回帰を最適化するために教師付き機械学習(ML)を活用する新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-23T17:54:23Z)
Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks [2.3031174164121127]
本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
論文参考訳（メタデータ） (2024-12-14T18:04:18Z)
Closer Look at Efficient Inference Methods: A Survey of Speculative Decoding [1.3479499607624648]
投機的復号化は、ドラフトと検証という2段階のフレームワークを導入することでボトルネックに対処する。より小さく効率的なモデルが予備のドラフトを生成し、より大きくより洗練されたモデルによって洗練される。本稿では、投機的復号法を包括的に調査し、それらをドラフト中心およびモデル中心のアプローチに分類する。
論文参考訳（メタデータ） (2024-11-20T09:46:30Z)
Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-16T00:53:41Z)
Plug-and-Play Controllable Generation for Discrete Masked Models [27.416952690340903]
本稿では、離散データ制御可能な生成モデリングのための離散マスクモデルについて述べる。本稿では,条件付きスコアのトレーニングを回避した重要サンプリングに基づく新しいプラグアンドプレイフレームワークを提案する。本フレームワークは,制御基準の選択に非依存であり,勾配情報を必要としないため,後方サンプリングやベイズ逆問題,制約生成などのタスクに適している。
論文参考訳（メタデータ） (2024-10-03T02:00:40Z)
Adaptive Draft-Verification for Efficient Large Language Model Decoding [24.347886232342862]
大規模言語モデル(LLM)デコードでは、与えられたコンテキストに基づいてトークンのシーケンスを生成する。典型的な自己回帰復号法では、生成されたトークンごとに別の前方通過が必要となる。微調整を必要とせずにLDMデコーディングを高速化するADEDを導入する。
論文参考訳（メタデータ） (2024-06-27T22:20:39Z)
Random Aggregate Beamforming for Over-the-Air Federated Learning in Large-Scale Networks [66.18765335695414]
本稿では,アグリゲーションエラーを最小限に抑え,選択したデバイス数を最大化する目的で,共同装置の選択とアグリゲーションビームフォーミング設計について検討する。コスト効率のよい方法でこの問題に取り組むために,ランダムな集合ビームフォーミング方式を提案する。また, 得られた集計誤差と, デバイス数が大きい場合に選択したデバイス数についても解析を行った。
論文参考訳（メタデータ） (2024-02-20T23:59:45Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文参考訳（メタデータ） (2023-02-02T18:27:20Z)
Multi-Agent Reinforcement Learning for Microprocessor Design Space Exploration [71.95914457415624]
マイクロプロセッサアーキテクトは、高性能でエネルギー効率の追求において、ドメイン固有のカスタマイズにますます頼っている。この問題に対処するために,Multi-Agent RL (MARL) を利用した別の定式化を提案する。評価の結果,MARLの定式化は単エージェントRLのベースラインよりも一貫して優れていた。
論文参考訳（メタデータ） (2022-11-29T17:10:24Z)
Towards Deployment-Efficient Reinforcement Learning: Lower Bound and Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文参考訳（メタデータ） (2022-02-14T01:31:46Z)
Ordering-Based Causal Discovery with Reinforcement Learning [31.358145789333825]
本論文では, RL を順序付けに基づくパラダイムに組み込むことにより, RL に基づく因果的発見手法を提案する。提案手法の一貫性と計算複雑性を分析し,事前学習モデルを用いて学習を高速化できることを実証的に示す。
論文参考訳（メタデータ） (2021-05-14T03:49:59Z)
Towards Standardizing Reinforcement Learning Approaches for Stochastic Production Scheduling [77.34726150561087]
強化学習はスケジューリングの問題を解決するのに使える。既存の研究は、コードが利用できない複雑なシミュレーションに依存している。から選ぶべきRLの設計の広大な配列があります。モデル記述の標準化 - 生産セットアップとRL設計の両方 - と検証スキームは前提条件です。
論文参考訳（メタデータ） (2021-04-16T16:07:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。