論文の概要: KForge: Program Synthesis for Diverse AI Hardware Accelerators
- arxiv url: http://arxiv.org/abs/2511.13274v1
- Date: Mon, 17 Nov 2025 11:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.189676
- Title: KForge: Program Synthesis for Diverse AI Hardware Accelerators
- Title(参考訳): KForge: 異種AIハードウェアアクセラレータのためのプログラム合成
- Authors: Taras Sereda, Tom St. John, Burak Bartan, Natalie Serrino, Sachin Katti, Zain Asgar,
- Abstract要約: KForgeは2つの協調LDMエージェント上に構築されたプラットフォームに依存しないフレームワークである。
生成エージェントは、コンパイルと正当性フィードバックによりプログラムを反復的に生成・洗練し、パフォーマンス分析エージェントは、プロファイリングデータを解釈して最適化を誘導する。
このエージェントベースのアーキテクチャは、新しいプラットフォームをターゲットにしたシングルショットの例のみを必要とする。
- 参考スコア(独自算出の注目度): 5.967639357025406
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GPU kernels are critical for ML performance but difficult to optimize across diverse accelerators. We present KForge, a platform-agnostic framework built on two collaborative LLM-based agents: a generation agent that produces and iteratively refines programs through compilation and correctness feedback, and a performance analysis agent that interprets profiling data to guide optimization. This agent-based architecture requires only a single-shot example to target new platforms. We make three key contributions: (1) introducing an iterative refinement system where the generation agent and performance analysis agent collaborate through functional and optimization passes, interpreting diverse profiling data (from programmatic APIs to GUI-based tools) to generate actionable recommendations that guide program synthesis for arbitrary accelerators; (2) demonstrating that the generation agent effectively leverages cross-platform knowledge transfer, where a reference implementation from one architecture substantially improves generation quality for different hardware targets; and (3) validating the platform-agnostic nature of our approach by demonstrating effective program synthesis across fundamentally different parallel computing platforms: NVIDIA CUDA and Apple Metal.
- Abstract(参考訳): GPUカーネルはMLのパフォーマンスには不可欠だが、多様なアクセラレータ間で最適化が難しい。
我々は,2つの協調LLMエージェント上に構築されたプラットフォームに依存しないフレームワークであるKForgeについて述べる。コンパイルと修正フィードバックによってプログラムを反復的に生成・洗練する生成エージェントと,プロファイリングデータを解釈して最適化を導くパフォーマンス分析エージェントである。
このエージェントベースのアーキテクチャは、新しいプラットフォームをターゲットにしたシングルショットの例のみを必要とする。
提案手法は,(1)プログラムAPIからGUIベースのツールまで,多様なプロファイリングデータを解釈し,任意のアクセラレーションのためのプログラム合成をガイドする実行可能なレコメンデーションを生成する反復的改良システムの導入,(2)一つのアーキテクチャからの参照実装がハードウェアターゲットの生成品質を大幅に向上させるクロスプラットフォームの知識伝達を効果的に活用すること,(3)基本的に異なる並列コンピューティングプラットフォームであるNVIDIA CUDAとApple Metalにまたがる効果的なプログラム合成を実証することによって,我々のアプローチのプラットフォームに依存しない性質を検証すること,の3つの重要な貢献を行う。
関連論文リスト
- PerfDojo: Automated ML Library Generation for Heterogeneous Architectures [28.513777562827485]
大規模言語モデル(LLM)と強化学習(RL)を活用した新しい自動最適化手法PerfLLMを紹介する。
PerfDojoは、ヒューマン可読で数学的にインスパイアされたコード表現を使用して、変換による意味論的妥当性を保証するRLゲームとして、環境フレーミングの最適化である。
PerfLLMの様々なCPU(x86、Arm、RISC-V)とGPUアーキテクチャ間で大きなパフォーマンス向上を実現する能力を示す。
論文 参考訳(メタデータ) (2025-11-05T16:05:26Z) - STARK: Strategic Team of Agents for Refining Kernels [23.717055490630596]
我々は,GPUカーネル最適化のためのエージェントフレームワークを導入し,マルチエージェント協調による設計空間を探索する。
このフレームワークはエキスパートエンジニアのワークフローを模倣し、LCMがハードウェアトレードオフを推論し、プロファイリングフィードバックを取り入れ、カーネルを反復的に洗練することを可能にする。
我々は,LLMに基づくカーネル最適化のベンチマークであるKernelBenchに対するアプローチを評価し,ベースラインエージェントよりも大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-10-19T20:41:46Z) - AwareCompiler: Agentic Context-Aware Compiler Optimization via a Synergistic Knowledge-Data Driven Framework [42.57224438231615]
本稿では,コンパイラ最適化のためのエージェントフレームワークである textbfAwareCompiler を紹介する。
構造化知識統合とデータセット構築、知識駆動適応パス生成、データ駆動ハイブリッドトレーニングパイプラインの3つの重要なイノベーション。
標準ベンチマークの実験結果は、AwareCompilerがパフォーマンスと効率の両方で既存のベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-13T02:02:36Z) - CompileAgent: Automated Real-World Repo-Level Compilation with Tool-Integrated LLM-based Agent System [52.048087777953064]
リポジトリレベルのコンパイル専用のエージェントフレームワークであるCompileAgentを提案する。
CompileAgentは5つのツールとフローベースのエージェント戦略を統合し、コンパイル命令検索とエラー解決のためのソフトウェアアーチファクトとのインタラクションを可能にする。
提案手法は,10%から71%の範囲で,コンパイル成功率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-05-07T08:59:14Z) - CompilerDream: Learning a Compiler World Model for General Code Optimization [58.87557583347996]
汎用コード最適化のためのモデルベース強化学習手法であるCompilerDreamを紹介する。
最適化パスの固有の特性を正確にシミュレートするコンパイラの世界モデルと、このモデルで訓練されたエージェントから、効率的な最適化戦略を生成する。
さまざまなデータセットを網羅し、LLVMのビルトイン最適化や、値予測とエンドツーエンドコード最適化の両方の設定における最先端メソッドを超越している。
論文 参考訳(メタデータ) (2024-04-24T09:20:33Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - ProGraML: Graph-based Deep Learning for Program Optimization and
Analysis [16.520971531754018]
本稿では,機械学習のためのグラフベースのプログラム表現であるProGraMLを紹介する。
ProGraMLは平均94.0F1スコアを獲得し、最先端のアプローチを著しく上回っている。
そして、我々のアプローチを2つのハイレベルなタスク - 不均一なデバイスマッピングとプログラム分類 - に適用し、その両方で新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2020-03-23T20:27:00Z) - Optimizing Streaming Parallelism on Heterogeneous Many-Core
Architectures: A Machine Learning Based Approach [16.702537371391053]
本稿では、異種多コアアーキテクチャ上のタスクベース並列アプリケーションにおいて、ハードウェアリソース分割とタスク粒度に関する優れたソリューションを導出する自動手法を提案する。
提案手法では,与えられたリソース分割とタスクの粒度設定に基づいて,対象アプリケーションの結果のパフォーマンスを推定するために,性能モデルを用いる。
シングルストリームバージョンと比較すると,XeonPhiとGPUプラットフォームでそれぞれ1.6倍,1.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2020-03-05T21:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。