論文の概要: NotSoTiny: A Large, Living Benchmark for RTL Code Generation
- arxiv url: http://arxiv.org/abs/2512.20823v1
- Date: Tue, 23 Dec 2025 22:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.625738
- Title: NotSoTiny: A Large, Living Benchmark for RTL Code Generation
- Title(参考訳): NotSoTiny: RTLコード生成のための大規模で生きたベンチマーク
- Authors: Razine Moundir Ghorab, Emanuele Parisi, Cristian Gutierrez, Miquel Alberti-Binimelis, Miquel Moreto, Dario Garcia-Gasulla, Gokcen Kestor,
- Abstract要約: NotSoTinyは、構造的にリッチでコンテキスト対応のRTLの生成を評価するベンチマークである。
本稿では、構造的にリッチでコンテキスト対応なRTLの生成を評価するベンチマークであるNotSoTinyを紹介する。
- 参考スコア(独自算出の注目度): 1.9742772050838129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs have shown early promise in generating RTL code, yet evaluating their capabilities in realistic setups remains a challenge. So far, RTL benchmarks have been limited in scale, skewed toward trivial designs, offering minimal verification rigor, and remaining vulnerable to data contamination. To overcome these limitations and to push the field forward, this paper introduces NotSoTiny, a benchmark that assesses LLM on the generation of structurally rich and context-aware RTL. Built from hundreds of actual hardware designs produced by the Tiny Tapeout community, our automated pipeline removes duplicates, verifies correctness and periodically incorporates new designs to mitigate contamination, matching Tiny Tapeout release schedule. Evaluation results show that NotSoTiny tasks are more challenging than prior benchmarks, emphasizing its effectiveness in overcoming current limitations of LLMs applied to hardware design, and in guiding the improvement of such promising technology.
- Abstract(参考訳): LLM は RTL コード生成の早期の約束を示しているが、現実的なセットアップでその能力を評価することは依然として課題である。
これまでのところ、RTLベンチマークは規模が限られており、自明な設計に偏り、最小限の検証厳密さを提供し、データの汚染に弱いままだった。
これらの制約を克服し、フィールドを前進させるため、構造的にリッチでコンテキスト対応のRTLを生成する上でLLMを評価するベンチマークであるNotSoTinyを導入する。
Tiny Tapeoutは、Tiny Tapeoutのコミュニティによって作られた数百のハードウェアデザインから作られており、自動パイプラインは重複を除去し、正確性を検証し、定期的に新しいデザインを取り入れて汚染を軽減し、Tiny Tapeoutのリリーススケジュールにマッチさせる。
評価の結果,NotSoTinyタスクは従来のベンチマークよりも難易度が高く,ハードウェア設計に適用されるLLMの現在の限界を克服し,将来性のある技術改善を導く上での有効性を強調した。
関連論文リスト
- ScaleRTL: Scaling LLMs with Reasoning Data and Test-Time Compute for Accurate RTL Code Generation [4.965247405975508]
高品質な推論データとテスト時間計算の両方をスケールアップする RTL 符号化のための最初の推論 LLM である ScaleRTL を紹介する。
具体的には、56Kトークンを平均化して、RTLの豊富な知識をキャプチャする3.5Bトークンのデータセットを生成する。
このコーパス上で汎用推論モデルを微調整すると、深いRTL推論が可能なScaleRTLが得られる。
論文 参考訳(メタデータ) (2025-06-05T20:24:58Z) - TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。
オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。
以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-03-31T07:43:12Z) - AntiLeakBench: Preventing Data Contamination by Automatically Constructing Benchmarks with Updated Real-World Knowledge [68.39683427262335]
既存の研究は、新たに収集されたデータが既存の知識を含む可能性があるため、汚染のない評価を保証することができない。
本稿では,自動アンチリーチベンチマークフレームワークであるAntiLeak-Benchを提案する。
論文 参考訳(メタデータ) (2024-12-18T09:53:12Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Generating Streamlining Constraints with Large Language Models [20.580584407211486]
合理化制約(あるいは合理化制約)は探索空間を狭め、複雑な制約満足度の問題を解決するスピードと実現可能性を高める。
提案手法は,Large Language Models (LLMs) の創造性を利用して,MiniZinc 制約言語で指定された問題に対する効率的なスリープライナーを提案する。
論文 参考訳(メタデータ) (2024-08-16T14:17:26Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。