論文の概要: HWE-Bench: Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks
- arxiv url: http://arxiv.org/abs/2604.14709v2
- Date: Thu, 23 Apr 2026 13:10:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:05.981754
- Title: HWE-Bench: Benchmarking LLM Agents on Real-World Hardware Bug Repair Tasks
- Title(参考訳): HWE-Bench: リアルタイムハードウェアバグ修復タスクにおけるLLMエージェントのベンチマーク
- Authors: Fan Cui, Hongyuan Hou, Zizhang Luo, Chenyun Yin, Yun Liang,
- Abstract要約: 既存のベンチマークは主に、孤立したコンポーネントレベルのタスクでLarge Language Models (LLM)を評価する。
HWE-Benchは,LLMエージェントを現実のハードウェアバグ修正タスクで評価するための,最初の大規模リポジトリレベルのベンチマークである。
- 参考スコア(独自算出の注目度): 3.958773019872771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for hardware design primarily evaluate Large Language Models (LLMs) on isolated, component-level tasks such as generating HDL modules from specifications, leaving repository-scale evaluation unaddressed. We introduce HWE-Bench, the first large-scale, repository-level benchmark for evaluating LLM agents on real-world hardware bug repair tasks. HWE-Bench comprises 417 task instances derived from real historical bug-fix pull requests across six major open-source projects spanning both Verilog/SystemVerilog and Chisel, covering RISC-V cores, SoCs, and security roots-of-trust. Each task is grounded in a fully containerized environment where the agent must resolve a real bug report, with correctness validated through the project's native simulation and regression flows. The benchmark is built through a largely automated pipeline that enables efficient expansion to new repositories. We evaluate seven LLMs with four agent frameworks and find that the best agent resolves 70.7% of tasks overall, with performance exceeding 90% on smaller cores but dropping below 65% on complex SoC-level projects. We observe larger performance gaps across models than commonly reported on software benchmarks, and difficulty is driven by project scope and bug-type distribution rather than code size alone. Our failure analysis traces agent failures to three stages of the debugging process: fault localization, hardware-semantic reasoning, and cross-artifact coordination across RTL, configuration, and verification components, providing concrete directions for developing more capable hardware-aware agents.
- Abstract(参考訳): ハードウェア設計のための既存のベンチマークは主に、仕様からHDLモジュールを生成するなど、独立したコンポーネントレベルのタスクで大規模言語モデル(LLM)を評価する。
HWE-Benchは,LLMエージェントを現実のハードウェアバグ修正タスクで評価するための,最初の大規模リポジトリレベルのベンチマークである。
HWE-Benchは、Verilog/SystemVerilogとChiselにまたがる6つの主要なオープンソースプロジェクトで、実際のバグ修正プルリクエストから派生した417のタスクインスタンスで構成されており、RISC-Vコア、SoC、セキュリティルーツ・オブ・トラストをカバーしている。
各タスクは、エージェントが実際のバグレポートを解決し、プロジェクトのネイティブシミュレーションと回帰フローを通じて正確性を検証する、完全にコンテナ化された環境に基盤を置いている。
ベンチマークは、ほとんど自動化されたパイプラインを通じて構築され、新しいリポジトリへの効率的な拡張を可能にする。
エージェントフレームワークが4つある7つのLCMを評価し、最高のエージェントが全体の70.7%のタスクを解決し、より小さなコアでは90%を超えるが、複雑なSoCレベルのプロジェクトでは65%以下であることがわかった。
ソフトウェアベンチマークで一般的に報告されるよりも、モデル間のパフォーマンスギャップが大きくなるのを観察し、コードのサイズだけでなく、プロジェクトのスコープとバグタイプの分散によって困難が引き起こされる。
我々の故障分析は、エージェントの障害をデバッグプロセスの3段階に遡る:障害の局所化、ハードウェア・セマンティック推論、RTL、構成、検証コンポーネント間のクロスアーティファクト調整、より有能なハードウェア・アウェア・エージェントの開発のための具体的な方向性を提供する。
関連論文リスト
- ReCUBE: Evaluating Repository-Level Context Utilization in Code Generation [7.907933839674293]
大規模言語モデル(LLM)は、エージェント探索またはフルコンテキスト生成を通じて大規模で動作する有能なコーディングアシスタントとして登場した。
ReCUBEは,LLMが残されているすべてのソースファイル,依存関係仕様,ドキュメントをコンテキストの唯一のソースとして使用して,実世界のリポジトリ内でマスクされたファイルを再構築するベンチマークである。
本稿では,エージェントフレームワークに統合可能な依存グラフベースのツールセットであるCaller-Centric Exploration (CCE)ツールキットを提案する。
論文 参考訳(メタデータ) (2026-03-26T08:04:15Z) - ProjDevBench: Benchmarking AI Coding Agents on End-to-End Project Development [49.63491095660809]
ProjDevBenchはエンドツーエンドのベンチマークで、コーディングエージェントにプロジェクト要件を提供し、その結果のリポジトリを評価する。
概念指向タスクと実世界のアプリケーションシナリオの両方をカバーし、8つのカテゴリにまたがる20のプログラミング問題をキュレートします。
エージェントは基本的な機能を扱うが、複雑なシステム設計、時間最適化、リソース管理に苦労する。
論文 参考訳(メタデータ) (2026-02-02T05:17:23Z) - Can Language Models Go Beyond Coding? Assessing the Capability of Language Models to Build Real-World Systems [44.748487030119]
大規模言語モデル(LLM)は、ソフトウェア工学における潜在的な可能性を示している。
命令セットアーキテクチャ(ISA)間のマイグレーション中にソフトウェアを修復する能力を評価するベンチマークは少ない。
論文 参考訳(メタデータ) (2025-11-02T03:23:07Z) - Evaluating the Limitations of Local LLMs in Solving Complex Programming Challenges [0.31498833540989407]
本研究では,オープンソースのローカルホスト型大規模言語モデル(LLM)による複雑なプログラミングタスクの処理性能について検討する。
AI駆動のコード生成評価(FACE)のためのオリジナルのフレームワークをベースとして、著者らはパイプラインを完全にオフラインで動作するように改造した。
その結果、パス@1の精度は局所モデルでは控えめであり、最高のモデルはプロプライエタリモデルの受け入れ率の約半分であることがわかった。
論文 参考訳(メタデータ) (2025-09-18T14:13:30Z) - Beyond Final Code: A Process-Oriented Error Analysis of Software Development Agents in Real-World GitHub Scenarios [31.749442120603774]
問題解決フェーズにおけるPythonの実行エラーは、低解像度率と推論オーバーヘッドの増加と相関している。
私たちは、ModuleNotFoundErrorやTypeErrorのような最も一般的なエラーを特定し、OSErrorやデータベース関連の問題のような特に困難なエラーを強調しました。
論文 参考訳(メタデータ) (2025-03-16T06:24:51Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。