Fugu-MT 論文翻訳(概要): HLS-Eval: A Benchmark and Framework for Evaluating LLMs on High-Level Synthesis Design Tasks

論文の概要: HLS-Eval: A Benchmark and Framework for Evaluating LLMs on High-Level Synthesis Design Tasks

arxiv url: http://arxiv.org/abs/2504.12268v1
Date: Wed, 16 Apr 2025 17:30:36 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 16:34:51.478853
Title: HLS-Eval: A Benchmark and Framework for Evaluating LLMs on High-Level Synthesis Design Tasks
Title（参考訳）: HLS-Eval:高レベル合成設計タスクにおけるLCMの評価のためのベンチマークとフレームワーク
Authors: Stefan Abi-Karam, Cong Hao,
Abstract要約: HLS-Evalは、HLS駆動設計のための最初の完全なベンチマークおよび評価フレームワークである。ベンチマークには、標準のHLSベンチマークと新しいソースから描かれた94のユニークな設計が含まれている。ベンチマーク以外にも、HLS-Evalは、ローカルおよびホストされたLLMの自動化、並列評価のためのモジュール型のPythonフレームワークを提供している。
参考スコア（独自算出の注目度）: 4.71707720395444
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid scaling of large language model (LLM) training and inference has driven their adoption in semiconductor design across academia and industry. While most prior work evaluates LLMs on hardware description language (HDL) tasks, particularly Verilog, designers are increasingly using high-level synthesis (HLS) to build domain-specific accelerators and complex hardware systems. However, benchmarks and tooling to comprehensively evaluate LLMs for HLS design tasks remain scarce. To address this, we introduce HLS-Eval, the first complete benchmark and evaluation framework for LLM-driven HLS design. HLS-Eval targets two core tasks: (1) generating HLS code from natural language descriptions, and (2) performing HLS-specific code edits to optimize performance and hardware efficiency. The benchmark includes 94 unique designs drawn from standard HLS benchmarks and novel sources. Each case is prepared via a semi-automated flow that produces a natural language description and a paired testbench for C-simulation and synthesis validation, ensuring each task is "LLM-ready." Beyond the benchmark, HLS-Eval offers a modular Python framework for automated, parallel evaluation of both local and hosted LLMs. It includes a parallel evaluation engine, direct HLS tool integration, and abstractions for to support different LLM interaction paradigms, enabling rapid prototyping of new benchmarks, tasks, and LLM methods. We demonstrate HLS-Eval through baseline evaluations of open-source LLMs on Vitis HLS, measuring outputs across four key metrics - parseability, compilability, runnability, and synthesizability - reflecting the iterative HLS design cycle. We also report pass@k metrics, establishing clear baselines and reusable infrastructure for the broader LLM-for-hardware community. All benchmarks, framework code, and results are open-sourced at https://github.com/stefanpie/hls-eval.
Abstract（参考訳）: 大規模言語モデル(LLM)のトレーニングと推論の急速なスケーリングは、学術や産業にまたがって半導体設計に採用されるきっかけとなった。ハードウェア記述言語(HDL)タスクに関する多くの先行研究は、特にVerilogで評価されているが、デザイナーはドメイン固有のアクセラレータや複雑なハードウェアシステムを構築するために、高レベル合成(HLS)の利用が増えている。しかし、HLS設計タスクのためのLSMを総合的に評価するベンチマークやツールはまだ乏しいままである。そこで本研究では,LLM駆動型HLS設計のためのベンチマークおよび評価フレームワークであるHLS-Evalを紹介する。 HLS-Evalは、(1)自然言語記述からHLSコードを生成すること、(2)性能とハードウェア効率を最適化するためにHLS固有のコード編集を実行することの2つのコアタスクをターゲットにしている。ベンチマークには、標準のHLSベンチマークと新しいソースから描かれた94のユニークな設計が含まれている。各ケースは、自然言語記述を生成する半自動フローと、Cシミュレーションと合成検証のためのペアテストベンチによって準備され、各タスクが"LLM-ready"であることを保証している。ベンチマーク以外にも、HLS-Evalはローカルとホストされた両方のLLMを自動で並列に評価するためのモジュール型のPythonフレームワークを提供する。並列評価エンジン、直接HLSツールの統合、異なるLLMインタラクションパラダイムをサポートするための抽象化が含まれており、新しいベンチマーク、タスク、LLMメソッドの迅速なプロトタイピングを可能にする。本研究では,Vitis HLS 上でのオープンソース LLM のベースライン評価を通じて,解析可能性,コンパイル可能性,実行可能性,合成可能性という4つの主要な指標のアウトプットを測定し,反復的 HLS 設計サイクルを反映した HLS-Eval を実証する。また、pass@kメトリクスを報告し、より広範なLLM-for-hardwareコミュニティのための明確なベースラインと再利用可能なインフラを確立します。すべてのベンチマーク、フレームワークコード、結果はhttps://github.com/stefanpie/hls-eval.comでオープンソース化されている。

関連論文リスト

TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-31T07:43:12Z)
Can Reasoning Models Reason about Hardware? An Agentic HLS Perspective [18.791753740931185]
OpenAI o3-mini と DeepSeek-R1 は Chain-of-Thought (CoT) を通じて推論を強化している本稿では, LLM の推論が高レベル合成(HLS)設計空間探索と最適化の課題に対処できるかどうかを検討する。
論文参考訳（メタデータ） (2025-03-17T01:21:39Z)
Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis [14.458529723566379]
LLM(Large Language Model)は、PythonやC++などのプログラミング言語に使用される。本稿では,LLMを利用してHLS(High-Level Synthesis)ベースのハードウェア設計を行う。
論文参考訳（メタデータ） (2025-02-19T17:53:59Z)
Multi-Programming Language Sandbox for LLMs [78.99934332554963]
大規模言語モデル(LLM)用のコンパイラと分析ツールから統一的で包括的なフィードバックを提供するように設計された、アウト・オブ・ザ・ボックスのマルチプログラミング言語サンドボックスコードのプログラミング言語を自動的に識別し、独立したサブサンドボックス内でコンパイルして実行することで、安全性と安定性を確保することができる。
論文参考訳（メタデータ） (2024-10-30T14:46:43Z)
Are LLMs Any Good for High-Level Synthesis? [1.3927943269211591]
大規模言語モデル(LLM)は、高レベル合成(HLS)プロセスの合理化や置き換えが可能である。 LLMは自然言語の仕様を理解し、Cコードや自然言語の仕様を翻訳することができる。本研究の目的は、AIアクセラレーション、組み込みシステム、高性能コンピューティングなどのアプリケーションにおいて、最適化されたハードウェア設計のための将来的な方向性を特定することである。
論文参考訳（メタデータ） (2024-08-19T21:40:28Z)
Rome was Not Built in a Single Step: Hierarchical Prompting for LLM-based Chip Design [22.70660876673987]
大言語モデル(LLM)は、ハードウェア記述言語(HDL)生成によるコンピュータハードウェア合成に有効である。しかし、複雑なタスクを扱う場合のHDL生成にLLMが支援するアプローチは難しかった。本稿では,効率的なステップワイズ設計手法を実現する階層的プロンプト手法について紹介する。
論文参考訳（メタデータ） (2024-07-23T21:18:31Z)
PPTC-R benchmark: Towards Evaluating the Robustness of Large Language Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。 GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文参考訳（メタデータ） (2024-03-06T15:33:32Z)
An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文参考訳（メタデータ） (2024-02-13T23:25:04Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文参考訳（メタデータ） (2023-09-01T09:40:36Z)
Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。 LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文参考訳（メタデータ） (2023-04-10T09:55:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。