論文の概要: HLS-Eval: A Benchmark and Framework for Evaluating LLMs on High-Level Synthesis Design Tasks
- arxiv url: http://arxiv.org/abs/2504.12268v1
- Date: Wed, 16 Apr 2025 17:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:38:53.581897
- Title: HLS-Eval: A Benchmark and Framework for Evaluating LLMs on High-Level Synthesis Design Tasks
- Title(参考訳): HLS-Eval:高レベル合成設計タスクにおけるLCMの評価のためのベンチマークとフレームワーク
- Authors: Stefan Abi-Karam, Cong Hao,
- Abstract要約: HLS-Evalは、HLS駆動設計のための最初の完全なベンチマークおよび評価フレームワークである。
ベンチマークには、標準のHLSベンチマークと新しいソースから描かれた94のユニークな設計が含まれている。
ベンチマーク以外にも、HLS-Evalは、ローカルおよびホストされたLLMの自動化、並列評価のためのモジュール型のPythonフレームワークを提供している。
- 参考スコア(独自算出の注目度): 4.71707720395444
- License:
- Abstract: The rapid scaling of large language model (LLM) training and inference has driven their adoption in semiconductor design across academia and industry. While most prior work evaluates LLMs on hardware description language (HDL) tasks, particularly Verilog, designers are increasingly using high-level synthesis (HLS) to build domain-specific accelerators and complex hardware systems. However, benchmarks and tooling to comprehensively evaluate LLMs for HLS design tasks remain scarce. To address this, we introduce HLS-Eval, the first complete benchmark and evaluation framework for LLM-driven HLS design. HLS-Eval targets two core tasks: (1) generating HLS code from natural language descriptions, and (2) performing HLS-specific code edits to optimize performance and hardware efficiency. The benchmark includes 94 unique designs drawn from standard HLS benchmarks and novel sources. Each case is prepared via a semi-automated flow that produces a natural language description and a paired testbench for C-simulation and synthesis validation, ensuring each task is "LLM-ready." Beyond the benchmark, HLS-Eval offers a modular Python framework for automated, parallel evaluation of both local and hosted LLMs. It includes a parallel evaluation engine, direct HLS tool integration, and abstractions for to support different LLM interaction paradigms, enabling rapid prototyping of new benchmarks, tasks, and LLM methods. We demonstrate HLS-Eval through baseline evaluations of open-source LLMs on Vitis HLS, measuring outputs across four key metrics - parseability, compilability, runnability, and synthesizability - reflecting the iterative HLS design cycle. We also report pass@k metrics, establishing clear baselines and reusable infrastructure for the broader LLM-for-hardware community. All benchmarks, framework code, and results are open-sourced at https://github.com/stefanpie/hls-eval.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニングと推論の急速なスケーリングは、学術や産業にまたがって半導体設計に採用されるきっかけとなった。
ハードウェア記述言語(HDL)タスクに関する多くの先行研究は、特にVerilogで評価されているが、デザイナーはドメイン固有のアクセラレータや複雑なハードウェアシステムを構築するために、高レベル合成(HLS)の利用が増えている。
しかし、HLS設計タスクのためのLSMを総合的に評価するベンチマークやツールはまだ乏しいままである。
そこで本研究では,LLM駆動型HLS設計のためのベンチマークおよび評価フレームワークであるHLS-Evalを紹介する。
HLS-Evalは、(1)自然言語記述からHLSコードを生成すること、(2)性能とハードウェア効率を最適化するためにHLS固有のコード編集を実行することの2つのコアタスクをターゲットにしている。
ベンチマークには、標準のHLSベンチマークと新しいソースから描かれた94のユニークな設計が含まれている。
各ケースは、自然言語記述を生成する半自動フローと、Cシミュレーションと合成検証のためのペアテストベンチによって準備され、各タスクが"LLM-ready"であることを保証している。ベンチマーク以外にも、HLS-Evalはローカルとホストされた両方のLLMを自動で並列に評価するためのモジュール型のPythonフレームワークを提供する。
並列評価エンジン、直接HLSツールの統合、異なるLLMインタラクションパラダイムをサポートするための抽象化が含まれており、新しいベンチマーク、タスク、LLMメソッドの迅速なプロトタイピングを可能にする。
本研究では,Vitis HLS 上でのオープンソース LLM のベースライン評価を通じて,解析可能性,コンパイル可能性,実行可能性,合成可能性という4つの主要な指標のアウトプットを測定し,反復的 HLS 設計サイクルを反映した HLS-Eval を実証する。
また、pass@kメトリクスを報告し、より広範なLLM-for-hardwareコミュニティのための明確なベースラインと再利用可能なインフラを確立します。
すべてのベンチマーク、フレームワークコード、結果はhttps://github.com/stefanpie/hls-eval.comでオープンソース化されている。
関連論文リスト
- Exploring Code Language Models for Automated HLS-based Hardware Generation: Benchmark, Infrastructure and Analysis [14.458529723566379]
LLM(Large Language Model)は、PythonやC++などのプログラミング言語に使用される。
本稿では,LLMを利用してHLS(High-Level Synthesis)ベースのハードウェア設計を行う。
論文 参考訳(メタデータ) (2025-02-19T17:53:59Z) - Multi-Programming Language Sandbox for LLMs [78.99934332554963]
大規模言語モデル(LLM)用のコンパイラと分析ツールから統一的で包括的なフィードバックを提供するように設計された、アウト・オブ・ザ・ボックスのマルチプログラミング言語サンドボックス
コードのプログラミング言語を自動的に識別し、独立したサブサンドボックス内でコンパイルして実行することで、安全性と安定性を確保することができる。
論文 参考訳(メタデータ) (2024-10-30T14:46:43Z) - Sequential Large Language Model-Based Hyper-parameter Optimization [0.0]
本研究では,大規模言語モデル(LLM)をハイパーパラメータ最適化(HPO)に活用する革新的なフレームワークSLLMBOを紹介する。
動的探索空間適応性、拡張パラメータ空間利用、新しいLLM木構造パーゼン推定器(LLM-TPE)が組み込まれている。
この総合ベンチマークは、GPT-3.5-Turbo、GPT-4o、Claude-Sonnet-3.5、Gemini-1.5-Flashを含む複数のLCMを評価する。
論文 参考訳(メタデータ) (2024-10-27T00:50:30Z) - FVEval: Understanding Language Model Capabilities in Formal Verification of Digital Hardware [4.480157114854711]
FVEvalは,形式的検証(FV)に関わるタスクにおいて,大規模言語モデル(LLM)のパフォーマンスを特徴付ける最初の総合ベンチマークである。
ベンチマークは3つのサブタスクで構成され、異なるレベルでLLM能力を測定する。
本稿では,FVに整合した合成例を生成するための,専門家による検証手法と手法のコレクションについて述べる。
論文 参考訳(メタデータ) (2024-10-15T21:48:57Z) - Are LLMs Any Good for High-Level Synthesis? [1.3927943269211591]
大規模言語モデル(LLM)は、高レベル合成(HLS)プロセスの合理化や置き換えが可能である。
LLMは自然言語の仕様を理解し、Cコードや自然言語の仕様を翻訳することができる。
本研究の目的は、AIアクセラレーション、組み込みシステム、高性能コンピューティングなどのアプリケーションにおいて、最適化されたハードウェア設計のための将来的な方向性を特定することである。
論文 参考訳(メタデータ) (2024-08-19T21:40:28Z) - Rome was Not Built in a Single Step: Hierarchical Prompting for LLM-based Chip Design [22.70660876673987]
大言語モデル(LLM)は、ハードウェア記述言語(HDL)生成によるコンピュータハードウェア合成に有効である。
しかし、複雑なタスクを扱う場合のHDL生成にLLMが支援するアプローチは難しかった。
本稿では,効率的なステップワイズ設計手法を実現する階層的プロンプト手法について紹介する。
論文 参考訳(メタデータ) (2024-07-23T21:18:31Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Inference with Reference: Lossless Acceleration of Large Language Models [97.04200102556551]
LLMAは、参照によるLarge Language Model (LLM)推論を高速化するアクセラレータである。
LLMによる復号結果と実世界の多くのシナリオで利用できる参照との間には、多くの同一のテキストが存在していることが観察の動機となっている。
論文 参考訳(メタデータ) (2023-04-10T09:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。