Fugu-MT 論文翻訳(概要): TimelyHLS: LLM-Based Timing-Aware and Architecture-Specific FPGA HLS Optimization

論文の概要: TimelyHLS: LLM-Based Timing-Aware and Architecture-Specific FPGA HLS Optimization

arxiv url: http://arxiv.org/abs/2507.17962v1
Date: Wed, 23 Jul 2025 22:08:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-25 15:10:42.638665
Title: TimelyHLS: LLM-Based Timing-Aware and Architecture-Specific FPGA HLS Optimization
Title（参考訳）: TimelyHLS: LLMに基づくタイミング認識とアーキテクチャ特化FPGA HLS最適化
Authors: Nowfel Mashnoor, Mohammad Akyash, Hadi Kamali, Kimia Azar,
Abstract要約: TimelyHLSは、タイミングクリティカルとデザイン固有のプラグマの両方で注釈付けされたHLSコードを生成する。 TimelyHLSは、プラットフォーム間のタイミング閉鎖と機能的正しさを一貫して達成する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Achieving timing closure and design-specific optimizations in FPGA-targeted High-Level Synthesis (HLS) remains a significant challenge due to the complex interaction between architectural constraints, resource utilization, and the absence of automated support for platform-specific pragmas. In this work, we propose TimelyHLS, a novel framework integrating Large Language Models (LLMs) with Retrieval-Augmented Generation (RAG) to automatically generate and iteratively refine HLS code optimized for FPGA-specific timing and performance requirements. TimelyHLS is driven by a structured architectural knowledge base containing FPGA-specific features, synthesis directives, and pragma templates. Given a kernel, TimelyHLS generates HLS code annotated with both timing-critical and design-specific pragmas. The synthesized RTL is then evaluated using commercial toolchains, and simulation correctness is verified against reference outputs via custom testbenches. TimelyHLS iteratively incorporates synthesis logs and performance reports into the LLM engine for refinement in the presence of functional discrepancies. Experimental results across 10 FPGA architectures and diverse benchmarks show that TimelyHLS reduces the need for manual tuning by up to 70%, while achieving up to 4x latency speedup (e.g., 3.85x for Matrix Multiplication, 3.7x for Bitonic Sort) and over 50% area savings in certain cases (e.g., 57% FF reduction in Viterbi). TimelyHLS consistently achieves timing closure and functional correctness across platforms, highlighting the effectiveness of LLM-driven, architecture-aware synthesis in automating FPGA design.
Abstract（参考訳）: FPGAをターゲットとした高レベル合成(HLS)におけるタイミングクロージャと設計固有の最適化を実現することは、アーキテクチャ上の制約、資源利用、プラットフォーム固有のプラグマの自動サポートの欠如といった複雑な相互作用により、依然として大きな課題である。本研究では,Large Language Models (LLM) とRetrieval-Augmented Generation (RAG) を統合した新しいフレームワークであるTimelyHLSを提案する。 TimelyHLSはFPGA固有の機能、合成ディレクティブ、プラグマテンプレートを含む構造化されたアーキテクチャ知識ベースによって駆動される。カーネルが与えられたとき、TimelyHLSはタイミングクリティカルとデザイン固有のプラグマの両方で注釈付きHLSコードを生成する。合成RTLは商用ツールチェーンを用いて評価され、カスタムテストベンチを介して参照出力に対してシミュレーション正しさが検証される。 TimelyHLSは、機能的不一致の存在下での洗練のために、合成ログと性能レポートをLLMエンジンに繰り返し組み込む。 10のFPGAアーキテクチャと多種多様なベンチマークによる実験結果によると、TimelyHLSは、最大で4倍のレイテンシスピードアップ(マトリックス乗算では3.85倍、Bitonic Sortでは3.7倍)、特定のケースでは50%以上の節約(例えば、Viterbiでは57%のFF削減)を達成しながら、手動チューニングの必要性を最大70%削減している。 TimelyHLSはプラットフォーム間のタイミングのクロージャと機能的正しさを一貫して達成し、FPGA設計の自動化におけるLLM駆動アーキテクチャ認識合成の有効性を強調した。

関連論文リスト

Breaking the Blocks: Continuous Low-Rank Decomposed Scaling for Unified LLM Quantization and Adaptation [46.34608916687127]
低ランク分解スケーリング(LoRDS)は、この低ランク分解を通じて量子化の粒度を再考する統一フレームワークである。空間的制約の「ブロックを壊す」ことで、LoRDSはシームレスな効率ライフサイクルを確立する。 LoRDSは、量子化タスクと下流細調整タスクの両方において、さまざまなモデルファミリの最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2026-01-30T08:46:02Z)
MeltRTL: Multi-Expert LLMs with Inference-time Intervention for RTL Code Generation [0.0]
MeltRTLは、マルチエキスパートの注意と推論時間の介入を統合する新しいフレームワークである。 MeltRTLは、ベースモデルを再トレーニングすることなく、大きな言語モデル(LLM)の精度を大幅に改善する。 We evaluate MeltRTL on the VerilogEval benchmark, achieve 96% synthesizability and 60% functional correctness。
論文参考訳（メタデータ） (2026-01-19T12:49:39Z)
Bench4HLS: End-to-End Evaluation of LLMs in High-Level Synthesis Code Generation [0.0]
大規模言語モデル(LLM)は、レジスタ転送レベル(RTL)におけるハードウェア設計を含む、コード生成において強力な能力を示している。 HLSとRTLに焦点を当てた研究の比率は過去6ヶ月で1:10から2:10に変化した。この増加傾向は、LSMベースのHLS専用の総合的なベンチマークと評価フレームワークの必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2026-01-16T20:52:42Z)
From Brute Force to Semantic Insight: Performance-Guided Data Transformation Design with LLMs [48.83701310501069]
大規模言語モデル(LLM)は、コード合成において顕著な性能を達成した。本稿では,LLMが最適変換を自律的に設計できる性能対応クローズドループソリューションを提案する。 6,000以上のPyTorch拡張関数を実験的に評価した新しいリポジトリ上で,低ランク適応型LPMを微調整する。
論文参考訳（メタデータ） (2026-01-07T11:13:02Z)
From Memorization to Creativity: LLM as a Designer of Novel Neural-Architectures [48.83701310501069]
大規模言語モデル(LLM)は、プログラム合成において優れているが、ニューラルネットワーク設計(信頼性、性能、構造的ノベルティ)を自律的にナビゲートする能力は、未調査のままである。コード指向LLMをクローズドループ合成フレームワークに配置し、22の教師付き微調整サイクルの進化を解析することによって、この問題に対処する。
論文参考訳（メタデータ） (2026-01-06T13:20:28Z)
QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文参考訳（メタデータ） (2025-08-06T14:35:59Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
LIFT: LLM-Based Pragma Insertion for HLS via GNN Supervised Fine-Tuning [38.679497621876926]
LIFTは大規模な言語モデル(LLM)ベースのHLSのためのコーディングアシスタントで、パフォーマンスクリティカルなプラグマを自動的に生成する。我々は、グラフニューラルネットワーク(GNN)でトレーニングプロセスを密に統合し、監督することにより、LSMを微調整する。
論文参考訳（メタデータ） (2025-04-29T21:42:59Z)
HLS-Eval: A Benchmark and Framework for Evaluating LLMs on High-Level Synthesis Design Tasks [4.71707720395444]
HLS-Evalは、HLS駆動設計のための最初の完全なベンチマークおよび評価フレームワークである。ベンチマークには、標準のHLSベンチマークと新しいソースから描かれた94のユニークな設計が含まれている。ベンチマーク以外にも、HLS-Evalは、ローカルおよびホストされたLLMの自動化、並列評価のためのモジュール型のPythonフレームワークを提供している。
論文参考訳（メタデータ） (2025-04-16T17:30:36Z)
SymRTLO: Enhancing RTL Code Optimization with LLMs and Neuron-Inspired Symbolic Reasoning [18.40402135952776]
本稿では,新しいニューロン-シンボリックRTL最適化フレームワークであるSymRTLOを提案する。有限状態機械(FSM)論理の解析と最適化のための記号モジュールを提案する。 Synopsys Design Compiler と Yosys による RTL-Rewriter ベンチマークの実験では、SymRTLO は 43.9% と 62.5% と 51.1% に向上している。
論文参考訳（メタデータ） (2025-04-14T16:15:55Z)
TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文参考訳（メタデータ） (2025-03-31T07:43:12Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
Unlocking Real-Time Fluorescence Lifetime Imaging: Multi-Pixel Parallelism for FPGA-Accelerated Processing [2.369919866595525]
FPGAベースのハードウェアアクセラレーターを用いてリアルタイムFLIを実現する手法を提案する。我々は、時間分解カメラと互換性のあるFPGAボード上に、GRUベースのシーケンス・ツー・シーケンス(Seq2Seq)モデルを実装した。 GRUベースのSeq2Seqモデルと、Seq2SeqLiteと呼ばれる圧縮されたバージョンを統合することで、複数のピクセルを並列に処理することができ、シーケンシャル処理と比較して遅延を低減できた。
論文参考訳（メタデータ） (2024-10-09T18:24:23Z)
AdaLog: Post-Training Quantization for Vision Transformers with Adaptive Logarithm Quantizer [54.713778961605115]
Vision Transformer (ViT) はコンピュータビジョンコミュニティにおいて最も普及しているバックボーンネットワークの1つである。本稿では,AdaLog(Adaptive Logarithm AdaLog)量子化器を提案する。
論文参考訳（メタデータ） (2024-07-17T18:38:48Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
LL-GNN: Low Latency Graph Neural Networks on FPGAs for High Energy Physics [45.666822327616046]
本研究は,粒子検出器のための低グラフニューラルネットワーク(LL-GNN)設計のための新しい再構成可能なアーキテクチャを提案する。 LL-GNNの設計は、洗練されたアルゴリズムが実験データを効率的に処理できるようにすることで、次世代のトリガーシステムを進化させる。
論文参考訳（メタデータ） (2022-09-28T12:55:35Z)
VAQF: Fully Automatic Software-hardware Co-design Framework for Low-bit Vision Transformer [121.85581713299918]
量子化ビジョントランス(ViT)のためのFPGAプラットフォーム上で推論アクセラレータを構築するフレームワークVAQFを提案する。モデル構造と所望のフレームレートから、VAQFはアクティベーションに必要な量子化精度を自動的に出力する。 FPGA上でのViTアクセラレーションに量子化が組み込まれたのはこれが初めてである。
論文参考訳（メタデータ） (2022-01-17T20:27:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。