Fugu-MT 論文翻訳(概要): ChipBench: A Next-Step Benchmark for Evaluating LLM Performance in AI-Aided Chip Design

論文の概要: ChipBench: A Next-Step Benchmark for Evaluating LLM Performance in AI-Aided Chip Design

arxiv url: http://arxiv.org/abs/2601.21448v1
Date: Thu, 29 Jan 2026 09:26:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-30 16:22:49.696355
Title: ChipBench: A Next-Step Benchmark for Evaluating LLM Performance in AI-Aided Chip Design
Title（参考訳）: ChipBench: AI支援チップ設計におけるLLMパフォーマンス評価のための次世代ベンチマーク
Authors: Zhongkai Yu, Chenyang Zhou, Yichen Lin, Hejia Zhang, Haotian Ye, Junxia Cui, Zaifeng Pan, Jishen Zhao, Yufei Ding,
Abstract要約: 大規模言語モデル(LLM)は、ハードウェア工学において大きな可能性を秘めている。現在のベンチマークでは飽和とタスクの多様性が制限されている。本稿では,AI支援チップ設計のための総合ベンチマークを提案する。
参考スコア（独自算出の注目度）: 15.71144418188142
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Large Language Models (LLMs) show significant potential in hardware engineering, current benchmarks suffer from saturation and limited task diversity, failing to reflect LLMs' performance in real industrial workflows. To address this gap, we propose a comprehensive benchmark for AI-aided chip design that rigorously evaluates LLMs across three critical tasks: Verilog generation, debugging, and reference model generation. Our benchmark features 44 realistic modules with complex hierarchical structures, 89 systematic debugging cases, and 132 reference model samples across Python, SystemC, and CXXRTL. Evaluation results reveal substantial performance gaps, with state-of-the-art Claude-4.5-opus achieving only 30.74\% on Verilog generation and 13.33\% on Python reference model generation, demonstrating significant challenges compared to existing saturated benchmarks where SOTA models achieve over 95\% pass rates. Additionally, to help enhance LLM reference model generation, we provide an automated toolbox for high-quality training data generation, facilitating future research in this underexplored domain. Our code is available at https://github.com/zhongkaiyu/ChipBench.git.
Abstract（参考訳）: 大規模言語モデル(LLM)はハードウェアエンジニアリングにおいて大きな可能性を秘めているが、現在のベンチマークは飽和とタスクの多様性に悩まされており、実際の産業ワークフローにおけるLLMのパフォーマンスを反映していない。このギャップに対処するため,我々は,3つの重要なタスク – Verilog生成,デバッグ,参照モデル生成 – に対して,LLMを厳格に評価する,AI支援チップ設計のための包括的なベンチマークを提案する。我々のベンチマークでは、複雑な階層構造を持つ44の現実的なモジュール、89の系統的なデバッグケース、Python、SystemC、CXXRTLの132の参照モデルサンプルが特徴である。評価結果は、最先端のClaude-4.5-opusが、Verilog生成で30.74 %、Python参照モデル生成で13.33 %しか達成できず、SOTAモデルが95 %以上のパス率を達成している既存の飽和ベンチマークと比較すると、大きな課題を示している。さらに、LLM参照モデル生成の促進を支援するため、我々は高品質なトレーニングデータ生成のための自動化ツールボックスを提供し、この未探索領域における今後の研究を容易にする。私たちのコードはhttps://github.com/zhongkaiyu/ChipBench.git.comで入手可能です。

関連論文リスト

TorchTraceAP: A New Benchmark Dataset for Detecting Performance Anti-Patterns in Computer Vision Models [20.52988819668052]
トレース中のアンチパターンを検出する機械学習モデルの評価と改善を目的とした,最初のベンチマークデータセットを提案する。私たちのデータセットには、コンピュータビジョンモデルの分類、検出、セグメンテーション、生成から600以上のPyTorchトレースが含まれています。軽量MLモデルは、まずアンチパターンを含むトレースセグメントを検出し、次に、きめ細かい分類と目標フィードバックのための大規模言語モデル(LLM)を提案する。
論文参考訳（メタデータ） (2025-12-16T06:54:20Z)
Beyond Single LLMs: Enhanced Code Generation via Multi-Stage Performance-Guided LLM Orchestration [12.674888937998086]
大規模言語モデル(LLM)は、自動コード生成の主要なパラダイムとなっている。本稿では,マルチステージなパフォーマンス誘導オーケストレーションフレームワークを導入することで,シングルモデルコンベンションに挑戦する。 Perchは、ステージワイドバリデーションとロールバックメカニズムを通じて、各タスクコンテキストでトップパフォーマンスのLLMをオーケストレーションする。
論文参考訳（メタデータ） (2025-10-01T19:07:16Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Revisiting VerilogEval: A Year of Improvements in Large-Language Models for Hardware Code Generation [6.463959200930805]
オープンソースのVerilogEvalベンチマークのリリース以降,新しい商用およびオープンなモデルを評価する。最先端のモデルでは測定可能な改善が得られます。高いパスレートを達成するためには、迅速なエンジニアリングが不可欠であることに気付きました。
論文参考訳（メタデータ） (2024-08-20T17:58:56Z)
ITERTL: An Iterative Framework for Fine-tuning LLMs for RTL Code Generation [9.409062607311528]
大規模言語モデル(LLM)は優れた性能を示しており、研究者はレジスタ転送レベル(RTL)コード生成の自動化に利用することを模索している。 RTL生成のためのファインチューンLSMへの既存のアプローチは、通常、固定データセット上で実行される。 ITERTLと呼ばれる反復的なトレーニングパラダイムを導入し、これらの問題を緩和する。我々のモデルは GPT4 と State-of-the-art (SOTA) のオープンソースモデルより優れており、VerilogEval- Human ベンチマークでは 53.8% のパス@1 レートを達成した。
論文参考訳（メタデータ） (2024-06-28T01:44:57Z)
LMUFormer: Low Complexity Yet Powerful Spiking Model With Legendre Memory Units [5.830814457423021]
トランスフォーマーモデルは、多くのアプリケーションで高い精度を示してきたが、複雑さが高く、シーケンシャルな処理能力に欠けていた。繰り返しモデルに対するアーキテクチャ上の変更が、Transformerモデルへのパフォーマンス向上にどのように役立つかを示す。本稿では,このアーキテクチャのスパイクバージョンを紹介し,パッチ埋め込みおよびチャネルミキサーモジュール内の状態の利点を紹介する。
論文参考訳（メタデータ） (2024-01-20T01:10:18Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。