論文の概要: PerfDojo: Automated ML Library Generation for Heterogeneous Architectures
- arxiv url: http://arxiv.org/abs/2511.03586v1
- Date: Wed, 05 Nov 2025 16:05:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.478052
- Title: PerfDojo: Automated ML Library Generation for Heterogeneous Architectures
- Title(参考訳): PerfDojo: 異種アーキテクチャのための自動MLライブラリ生成
- Authors: Andrei Ivanov, Siyuan Shen, Gioele Gottardo, Marcin Chrapek, Afif Boudaoud, Timo Schneider, Luca Benini, Torsten Hoefler,
- Abstract要約: 大規模言語モデル(LLM)と強化学習(RL)を活用した新しい自動最適化手法PerfLLMを紹介する。
PerfDojoは、ヒューマン可読で数学的にインスパイアされたコード表現を使用して、変換による意味論的妥当性を保証するRLゲームとして、環境フレーミングの最適化である。
PerfLLMの様々なCPU(x86、Arm、RISC-V)とGPUアーキテクチャ間で大きなパフォーマンス向上を実現する能力を示す。
- 参考スコア(独自算出の注目度): 28.513777562827485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing complexity of machine learning models and the proliferation of diverse hardware architectures (CPUs, GPUs, accelerators) make achieving optimal performance a significant challenge. Heterogeneity in instruction sets, specialized kernel requirements for different data types and model features (e.g., sparsity, quantization), and architecture-specific optimizations complicate performance tuning. Manual optimization is resource-intensive, while existing automatic approaches often rely on complex hardware-specific heuristics and uninterpretable intermediate representations, hindering performance portability. We introduce PerfLLM, a novel automatic optimization methodology leveraging Large Language Models (LLMs) and Reinforcement Learning (RL). Central to this is PerfDojo, an environment framing optimization as an RL game using a human-readable, mathematically-inspired code representation that guarantees semantic validity through transformations. This allows effective optimization without prior hardware knowledge, facilitating both human analysis and RL agent training. We demonstrate PerfLLM's ability to achieve significant performance gains across diverse CPU (x86, Arm, RISC-V) and GPU architectures.
- Abstract(参考訳): 機械学習モデルの複雑さの増大と、さまざまなハードウェアアーキテクチャ(CPU、GPU、アクセラレータ)の普及により、最適なパフォーマンスを達成することが大きな課題となる。
命令セットの不均一性、異なるデータ型とモデル機能(例えば、疎性、量子化)のための特別なカーネル要件、アーキテクチャ固有の最適化は、パフォーマンスチューニングを複雑にする。
手動の最適化はリソース集約的であるが、既存の自動手法は複雑なハードウェア固有のヒューリスティックと解釈不能な中間表現に依存しており、性能のポータビリティを損なう。
本稿では,Large Language Models(LLM)とReinforcement Learning(RL)を活用した新しい自動最適化手法PerfLLMを紹介する。
PerfDojoは、ヒューマン可読で数学的にインスパイアされたコード表現を使用して、変換による意味論的妥当性を保証するRLゲームとしての環境フレーミング最適化である。
これにより、ハードウェアの知識のない効率的な最適化が可能になり、人間の分析とRLエージェントのトレーニングの両方が容易になる。
PerfLLMの様々なCPU(x86、Arm、RISC-V)とGPUアーキテクチャ間で大きなパフォーマンス向上を実現する能力を示す。
関連論文リスト
- xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - REASONING COMPILER: LLM-Guided Optimizations for Efficient Model Serving [6.19179006129561]
本稿では,逐次的かつコンテキスト対応な意思決定プロセスとして最適化を定式化する,新しいコンパイルフレームワーク(Dubbed Reasoning)を提案する。
提案手法は,LLM誘導推論がコンパイラ最適化のランドスケープを変革する可能性を示す。
論文 参考訳(メタデータ) (2025-06-02T07:02:46Z) - Solver-Informed RL: Grounding Large Language Models for Authentic Optimization Modeling [3.253908111652627]
大型言語モデル(LLM)は、しばしば幻覚に対する形式的正当で使用可能なモデルを生成するのに苦労する。
本稿では,検証リワードを用いた強化学習を用いた最適化モデルのためのLLMの信頼性を向上する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-17T02:32:03Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - Deep Symbolic Optimization for Combinatorial Optimization: Accelerating Node Selection by Discovering Potential Heuristics [10.22111332588471]
本稿では,その利点を生かした,新しい記号的最適化学習フレームワークを提案する。
Dso4NSは高次元離散記号空間内の数学的表現の探索をガイドし、最高性能の数学的表現を解法に組み込む。
実験では、Dso4NSが高品質な表現の学習に有効であることを示し、CPUマシンにおける既存のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2024-06-14T06:02:14Z) - CompilerDream: Learning a Compiler World Model for General Code Optimization [58.87557583347996]
汎用コード最適化のためのモデルベース強化学習手法であるCompilerDreamを紹介する。
最適化パスの固有の特性を正確にシミュレートするコンパイラの世界モデルと、このモデルで訓練されたエージェントから、効率的な最適化戦略を生成する。
さまざまなデータセットを網羅し、LLVMのビルトイン最適化や、値予測とエンドツーエンドコード最適化の両方の設定における最先端メソッドを超越している。
論文 参考訳(メタデータ) (2024-04-24T09:20:33Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Learning Performance-Improving Code Edits [107.21538852090208]
本稿では,大規模言語モデル(LLM)を高レベルプログラム最適化に適用するためのフレームワークを提案する。
まず、競争力のある77,000以上のC++プログラミングサブミッションペアによる、人間のプログラマによるパフォーマンス改善編集のデータセットをキュレートする。
提案手法は,検索をベースとした少数ショットプロンプトとチェーン・オブ・シンクレットを提案し,その微調整には,自己再生に基づく性能条件付き生成と合成データ拡張が含まれる。
論文 参考訳(メタデータ) (2023-02-15T18:59:21Z) - A Learned Performance Model for Tensor Processing Units [5.733911161090224]
本稿では,処理ユニット(TPU)インスタンス用のグラフプログラムのコーパスから,パフォーマンスモデルを学習する方法を示す。
学習したモデルでは,2つのタスクにおいて,高度に最適化された分析性能モデルよりも優れていることを示す。
オートチューニングは、TPUへのアクセスが制限されたり、高価な設定で、より高速なプログラムを見つけるのに役立つ。
論文 参考訳(メタデータ) (2020-08-03T17:24:52Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。