論文の概要: PassNet: Scaling Large Language Models for Graph Compiler Pass Generation
- arxiv url: http://arxiv.org/abs/2605.29357v1
- Date: Thu, 28 May 2026 04:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.740962
- Title: PassNet: Scaling Large Language Models for Graph Compiler Pass Generation
- Title(参考訳): PassNet: グラフコンパイラパス生成のための大規模言語モデルのスケーリング
- Authors: Yiqun Liu, Yingsheng Wu, Ruqi Yang, Enrong Zheng, Honglei Qiu, Sijun He, Tai Liang, Jingjing Wu, Yuhan Zhou, Yiwei Zhang, Dongyan Chen, Weihan Yi, Xinqi Li, Siqi Bao,
- Abstract要約: TorchInductorのような現代のコンパイラは、メインストリームモデルでかなりのスピードアップを提供するが、ロングテールワークロードでは体系的なパフォーマンス天井に直面している。
LLMコンパイラのパス生成のための,最初の大規模エコシステムであるPassNetを提案する。
- 参考スコア(独自算出の注目度): 14.270819615753227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern tensor compilers such as TorchInductor deliver substantial speedups on mainstream models, yet face a systematic performance ceiling on long-tail workloads -- our profiling shows that 43% of real-world subgraphs experience end-to-end slowdowns under default compilation. While LLMs offer a path toward automated optimization, existing efforts focus on standalone kernel generation. We argue that pass generation -- where LLMs author structured graph transformations that integrate directly into compiler pipelines -- is the more appropriate abstraction. We propose PassNet, the first large-scale ecosystem for LLM-based compiler pass generation, comprising: (1) PassNet-Dataset, over 18K unique computational graphs from 100K real-world models; and (2) PassBench, 200 curated long-tail fusible tasks (comprising 2,060 subgraphs in total) evaluated under the Error-aware Speedup Score (ES_t) -- a metric unifying correctness, stability, and performance -- with layered integrity defenses against systematic LLM exploitation. Experiments reveal that PassBench is both highly discriminative and genuinely unsaturated: the best frontier model trails TorchInductor by 37% in aggregate, yet on individual subgraphs LLMs achieve up to 3x speedup over the same compiler -- indicating that the bottleneck is consistency, not capability. Fine-tuning a small model on merely ~4K PassNet trajectories yields a 2.67x improvement approaching frontier-model performance, demonstrating substantial headroom and validating PassNet as live training infrastructure for advancing LLM-driven compiler optimization. All data, benchmarks, and tooling are publicly available.
- Abstract(参考訳): TorchInductorのような現代的なテンソルコンパイラは、メインストリームモデルで大幅にスピードアップしますが、ロングテールワークロードでは、システマティックなパフォーマンス天井に直面しています -- プロファイリングによると、現実世界のサブグラフの43%が、デフォルトのコンパイル下でエンドツーエンドのスローダウンを経験しています。
LLMは自動最適化への道を提供するが、既存の取り組みはスタンドアロンのカーネル生成に焦点を当てている。
LLMが直接コンパイラパイプラインに統合する構造化グラフ変換を記述したパス生成は、より適切な抽象化である、と我々は主張する。
本稿では,(1)PassNet-Dataset,100K以上の実世界モデルからの18K以上のユニークな計算グラフ,(2)PassBench,200個の長い尾の可算タスク(合計2,060個の部分グラフを含む)を,エラー認識スピードアップスコア(ES_t)に基づいて評価し,その正確性,安定性,性能を統一した計量値であるPassNetを提案する。
最高のフロンティアモデルがTorchInductorを37%上回るが、個々のサブグラフではLLMは同じコンパイラ上で最大3倍のスピードアップを実現している。
単に4KのPassNet軌道上の小さなモデルを微調整すると、フロンティアモデルのパフォーマンスが2.67倍に向上し、かなりのヘッドルームが証明され、LLM駆動のコンパイラ最適化を進めるためのライブトレーニング基盤としてPassNetが検証される。
すべてのデータ、ベンチマーク、ツールが公開されている。
関連論文リスト
- BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - Compiling Code LLMs into Lightweight Executables [18.677096682203697]
Dittoは、コードLLMのモデルサイズと推論プログラムの両方を最適化する新しい方法である。
私たちは、Dittoを3つの人気のあるコードLLMで評価し、元の推論パイプラインと比較して最大10.5$times$低いメモリ使用量を達成しました。
論文 参考訳(メタデータ) (2026-03-31T14:40:19Z) - Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving [2.6336040306318274]
LLM(Large Language Model)アダプタは、低コストのモデル特殊化を可能にする。
LLMアダプタは、数百のアダプタを同時にホストしなければならない分散サービスシステムにおいて、複雑なキャッシュとスケジューリングの課題を導入する。
本稿では,最小GPU数でワークロードを処理するアダプタ配置を計算したデータ駆動パイプラインを提案する。
論文 参考訳(メタデータ) (2026-02-27T14:22:51Z) - ChipBench: A Next-Step Benchmark for Evaluating LLM Performance in AI-Aided Chip Design [15.71144418188142]
大規模言語モデル(LLM)は、ハードウェア工学において大きな可能性を秘めている。
現在のベンチマークでは飽和とタスクの多様性が制限されている。
本稿では,AI支援チップ設計のための総合ベンチマークを提案する。
論文 参考訳(メタデータ) (2026-01-29T09:26:55Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Beyond Single LLMs: Enhanced Code Generation via Multi-Stage Performance-Guided LLM Orchestration [12.674888937998086]
大規模言語モデル(LLM)は、自動コード生成の主要なパラダイムとなっている。
本稿では,マルチステージなパフォーマンス誘導オーケストレーションフレームワークを導入することで,シングルモデルコンベンションに挑戦する。
Perchは、ステージワイドバリデーションとロールバックメカニズムを通じて、各タスクコンテキストでトップパフォーマンスのLLMをオーケストレーションする。
論文 参考訳(メタデータ) (2025-10-01T19:07:16Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
本研究では,プルーンドモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する最適化に基づく構造的プルーニングを提案する。
我々は、基底となるベルヌーイ分布をサンプルのバイナリ・プルーニングマスクに学習することでこれを実現する。
LLaMA, LLaMA-2, LLaMA-3, Vicuna, Mistral モデルによる実験により, 本手法の有効性と有効性を示すことができた。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。