論文の概要: HLS-Seek: QoR-Aware Code Generation for High-Level Synthesis via Proxy Comparative Reward Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.13536v1
- Date: Wed, 13 May 2026 13:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.081159
- Title: HLS-Seek: QoR-Aware Code Generation for High-Level Synthesis via Proxy Comparative Reward Reinforcement Learning
- Title(参考訳): HLS-Seek: Proxy Comparison Reinforcement Learningによる高レベル合成のためのQoR対応コード生成
- Authors: Qingyun Zou, Feng Yu, Hongshi Tan, Yao Chen, Bingsheng He, WengFai Wong,
- Abstract要約: textbfHLS-Seekは、ループ内の高価な合成RLを比較プロキシ報酬モデルで置き換える。
HLS-Seekは81.5%の構文修正パス@1と81.4%のFunc@5を7Bパラメータで達成している。
- 参考スコア(独自算出の注目度): 34.436059306800765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-Level Synthesis (HLS) compiles algorithmic C/C++ descriptions into hardware, with Quality of Results (QoR) -- latency and resource utilization -- critically governed by pragma configurations and code structure. Existing LLM-based HLS approaches train for functional correctness but ignore QoR entirely. We observe that reinforcement learning (RL) for HLS does not require absolute synthesis results -- only relative comparisons between candidates. Based on this insight, we propose \textbf{HLS-Seek}, a QoR-aware NL-to-HLS framework that replaces expensive synthesis-in-the-loop RL with a comparative proxy reward model achieving 99.53\% Pareto-dominance accuracy. To prevent reward hacking, we introduce \textit{uncertainty-aware Monte Carlo (MC) dropout switching} that selectively invokes real Vitis HLS synthesis for low-confidence candidates and online updates the proxy, creating a self-improving reward system. HLS-Seek achieves 81.5\% syntax correctness pass@1 and 81.4\% Func@5 on HLS-eval with only 7B parameters, surpassing GPT-5.1 and other frontier models while achieving 8.5$\times$ faster training than real-reward RL. On QoR evaluation, HLS-Seek achieves the lowest latency on 16/30 kernels and Pareto-dominates HLS-specific baselines on 9 kernels.
- Abstract(参考訳): 高レベル合成(HLS)は、アルゴリズムによるC/C++記述をハードウェアにコンパイルする。
既存のLLMベースのHLSアプローチは機能的正当性を訓練するが、QoRを完全に無視する。
我々は,HLSのための強化学習(RL)が絶対合成結果を必要としないことを観察する。
そこで本研究では,QoR 対応 NL-to-HLS フレームワークである \textbf{HLS-Seek} を提案する。
低信頼度候補に対する実Vitis HLS合成を選択的に起動し、プロキシをオンライン更新し、自己改善型報酬システムを作成する。
HLS-Seekは81.5\%の構文正しさパス@1と81.4\%のFunc@5を7Bパラメータで達成し、GPT-5.1や他のフロンティアモデルを上回った。
QoRの評価では、HLS-Seekは16/30カーネルで最低レイテンシを達成し、Paretoは9カーネルでHLS固有のベースラインを支配している。
関連論文リスト
- CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Bench4HLS: End-to-End Evaluation of LLMs in High-Level Synthesis Code Generation [0.0]
大規模言語モデル(LLM)は、レジスタ転送レベル(RTL)におけるハードウェア設計を含む、コード生成において強力な能力を示している。
HLSとRTLに焦点を当てた研究の比率は過去6ヶ月で1:10から2:10に変化した。
この増加傾向は、LSMベースのHLS専用の総合的なベンチマークと評価フレームワークの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2026-01-16T20:52:42Z) - QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs [80.76334908639745]
大規模言語モデル(LLM)のための量子化強化学習フレームワークQeRLを提案する。
QeRLは、NVFP4量子化とローランド適応(LoRA)を組み合わせた問題に対処する。
実験によると、QeRLはロールアウトフェーズで1.5倍以上のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-10-13T17:55:09Z) - TimelyHLS: LLM-Based Timing-Aware and Architecture-Specific FPGA HLS Optimization [0.0]
TimelyHLSは、タイミングクリティカルとデザイン固有のプラグマの両方で注釈付けされたHLSコードを生成する。
TimelyHLSは、プラットフォーム間のタイミング閉鎖と機能的正しさを一貫して達成する。
論文 参考訳(メタデータ) (2025-07-23T22:08:15Z) - HLSTester: Efficient Testing of Behavioral Discrepancies with LLMs for High-Level Synthesis [4.544714097232974]
高レベル合成(HLS)における行動の相違をテストする既存の方法はまだ未熟である。
本研究では,大規模言語モデル(LLM)を用いたテストフレームワークHLSTesterを提案する。
LLMの幻覚を緩和するために、オリジナルのC/C++プログラムのテストベンチを利用して、LS互換のテストベンチを生成する。
論文 参考訳(メタデータ) (2025-04-20T14:45:01Z) - Hint-before-Solving Prompting: Guiding LLMs to Effectively Utilize
Encoded Knowledge [85.17343729885003]
我々は,Hint-before-Solving Prompting (HSP)を導入し,その問題を解くためのヒントを生成する。
HSPは推論タスクの精度を効果的に向上させることができる。
我々はHSPと細調整されたLlemma-7Bに基づいてHSPMATHデータセットを構築し、64.3精度を達成した。
論文 参考訳(メタデータ) (2024-02-22T05:58:03Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。