論文の概要: Agent Factories for High Level Synthesis: How Far Can General-Purpose Coding Agents Go in Hardware Optimization?
- arxiv url: http://arxiv.org/abs/2603.25719v1
- Date: Thu, 26 Mar 2026 17:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.417393
- Title: Agent Factories for High Level Synthesis: How Far Can General-Purpose Coding Agents Go in Hardware Optimization?
- Title(参考訳): 高次合成のためのエージェントファクター:汎用符号化エージェントはどこまでハードウェア最適化に使えるのか?
- Authors: Abhishek Bhandwaldar, Mihir Choudhury, Ruchir Puri, Akash Srivastava,
- Abstract要約: 本稿では,汎用符号化エージェントが高レベルのアルゴリズム仕様からハードウェア設計をいかに最適化できるかを実証研究する。
複数の自律的最適化エージェントの構築と調整を行う2段階パイプラインであるエージェントファクトリを導入する。
AMD Vitis HLS を用いた Claude Code (Opus4.5/4.6) を用いた HLS-Eval と Rodinia-HLS の 12 個のカーネルに対するアプローチの評価を行った。
- 参考スコア(独自算出の注目度): 8.899459735174174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an empirical study of how far general-purpose coding agents -- without hardware-specific training -- can optimize hardware designs from high-level algorithmic specifications. We introduce an agent factory, a two-stage pipeline that constructs and coordinates multiple autonomous optimization agents. In Stage~1, the pipeline decomposes a design into sub-kernels, independently optimizes each using pragma and code-level transformations, and formulates an Integer Linear Program (ILP) to assemble globally promising configurations under an area constraint. In Stage~2, it launches $N$ expert agents over the top ILP solutions, each exploring cross-function optimizations such as pragma recombination, loop fusion, and memory restructuring that are not captured by sub-kernel decomposition. We evaluate the approach on 12 kernels from HLS-Eval and Rodinia-HLS using Claude Code (Opus~4.5/4.6) with AMD Vitis HLS. Scaling from 1 to 10 agents yields a mean $8.27\times$ speedup over baseline, with larger gains on harder benchmarks: streamcluster exceeds $20\times$ and kmeans reaches approximately $10\times$. Across benchmarks, agents consistently rediscover known hardware optimization patterns without domain-specific training, and the best designs often do not originate from top-ranked ILP candidates, indicating that global optimization exposes improvements missed by sub-kernel search. These results establish agent scaling as a practical and effective axis for HLS optimization.
- Abstract(参考訳): ハードウェア固有のトレーニングを伴わない汎用コーディングエージェントが、ハイレベルなアルゴリズム仕様からハードウェア設計をいかに最適化できるかを実証研究する。
複数の自律最適化エージェントの構築と調整を行う2段階パイプラインであるエージェントファクトリを導入する。
Stage~1では、パイプラインはサブカーネルに設計を分解し、プラグマとコードレベルの変換を使用してそれぞれを独立に最適化し、Integer Linear Program (ILP) を定式化し、領域制約の下でグローバルに期待できる構成を組み立てる。
Stage~2では、上位のILPソリューション上でN$のエキスパートエージェントを起動し、それぞれがサブカーネル分解によってキャプチャされないプラグマ再結合、ループ融合、メモリ再構成などのクロスファンクショナル最適化を探索する。
AMD Vitis HLS を用いた Claude Code (Opus~4.5/4.6) を用いた HLS-Eval と Rodinia-HLS の 12 個のカーネルに対するアプローチの評価を行った。
1から10のエージェントへのスケーリングでは、ベースラインよりも平均8.27\times$のスピードアップが得られ、より厳しいベンチマークでは大きな利得が得られている:ストリームクラスタは20\times$を超え、kmeansはおよそ10\times$に達する。
ベンチマーク全体を通じて、エージェントはドメイン固有のトレーニングなしで既知のハードウェア最適化パターンを再発見し、最良の設計は上位のICP候補から派生しないことが多い。
これらの結果から,HLS最適化の実践的かつ効果的な軸としてエージェントスケーリングが確立された。
関連論文リスト
- TL-GRPO: Turn-Level RL for Reasoning-Guided Iterative Optimization [97.18886232580131]
大規模言語モデルは、ツール統合による複雑なタスクにおいて強力な推論能力を示している。
そこで我々はターンレベルグループサンプリングを行う軽量RLアルゴリズムであるTurn-Level GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-23T06:21:33Z) - A Two-Stage GPU Kernel Tuner Combining Semantic Refactoring and Search-Based Optimization [9.49293344824955]
本稿では,エージェント駆動反復ループ上にテンプレートベースの書き換え層を導入する。
提案手法は,実運用負荷に対する自動性能最適化を実現するために拡張することができる。
論文 参考訳(メタデータ) (2026-01-19T03:40:12Z) - Make Optimization Once and for All with Fine-grained Guidance [78.14885351827232]
Learning to Optimize (L2O)は、統合ニューラルネットワークによる最適化効率を向上させる。
L2Oパラダイムは、例えば、リフィット、目に見えない解決策を反復的または直接的に生成するなど、大きな成果を達成する。
そこで本研究では,Diff-L2Oと呼ばれる学習最適化のための一般的なフレームワークについて検討した。
論文 参考訳(メタデータ) (2025-03-14T14:48:12Z) - Memory-Efficient Gradient Unrolling for Large-Scale Bi-level Optimization [71.35604981129838]
双レベル最適化は階層型機械学習問題に対処するための基本的な数学的枠組みとなっている。
従来の勾配に基づく二段階最適化アルゴリズムは、大規模アプリケーションの要求を満たすには不適である。
両レベル最適化のためのメタ勾配の偏りのない近似を実現するための$(textFG)2textU$を導入する。
論文 参考訳(メタデータ) (2024-06-20T08:21:52Z) - OLLIE: Derivation-based Tensor Program Optimizer [13.23204410403652]
導出型テンソルプログラムOLLIEを提案する。
我々は,既存のテンソル式をA100 GPUで最大2.73$times$ (1.46$times$)、V100 GPUで最大2.68$times$1$times$で上回ることができることを示す。
論文 参考訳(メタデータ) (2022-08-02T14:38:58Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Woodpecker-DL: Accelerating Deep Neural Networks via Hardware-Aware
Multifaceted Optimizations [15.659251804042748]
Woodpecker-DL (WPK) はハードウェア対応のディープラーニングフレームワークである。
WPKは、グラフ最適化、自動検索、ドメイン固有言語(DSL)、システムレベルの探索を使って推論を高速化する。
最大P100 GPUでは、cuDNNが5.40、TVMが1.63、エンドツーエンドモデル推論がTeslaRTより1.18倍高速であることを示す。
論文 参考訳(メタデータ) (2020-08-11T07:50:34Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。