論文の概要: From Large to Small: Transferring CUDA Optimization Expertise via Reasoning Graph
- arxiv url: http://arxiv.org/abs/2510.19873v1
- Date: Wed, 22 Oct 2025 08:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.431371
- Title: From Large to Small: Transferring CUDA Optimization Expertise via Reasoning Graph
- Title(参考訳): 大規模から小規模へ:Reasoning GraphによるCUDA最適化エキスパートの移行
- Authors: Junfeng Gong, Zhiyi Wei, Junying Chen, Cheng Liu, Huawei Li,
- Abstract要約: 大規模言語モデル(LLM)は、シーケンシャルコードから最適化されたコードを生成する強力な可能性を示している。
クラウドベースのAPIはコード漏洩のリスクを生じさせ、ローカルデプロイメントは計算コストが高く非効率であることが多い。
これらの欠点は、より軽量でプライバシーに優しい小言語モデル(SLM)への関心を喚起している。
- 参考スコア(独自算出の注目度): 12.73098983668479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant evolution of CUDA programming and domain-specific libraries, effectively utilizing GPUs with massively parallel engines remains difficult. Large language models (LLMs) show strong potential in generating optimized CUDA code from sequential code. However, using LLMs in practice faces two major challenges: cloud-based APIs pose risks of code leakage, and local deployment is often computationally expensive and inefficient. These drawbacks have spurred interest in small language models (SLMs), which are more lightweight and privacy-friendly. Encouragingly, recent studies show that SLMs can achieve performance comparable to LLMs on specific tasks. While SLMs can match LLMs on domain-specific tasks, their limited reasoning abilities lead to suboptimal performance in complex CUDA generation according to our experiments. To bridge this gap, we propose ReGraphT, a training-free, retrieval-augmented generation framework that transfers LLM-level reasoning to smaller models. ReGraphT organizes CUDA optimization trajectories into a structured reasoning graph, modeling the combined CUDA optimizations as state transitions, and leverages Monte Carlo Graph Search (MCGS) for efficient exploration. We also present a CUDA-specific benchmark with difficulty tiers defined by reasoning complexity to evaluate models more comprehensively. Experiments show that ReGraphT outperforms HPC-specific fine-tuned models and other retrieval-augmented approaches, achieving an average 2.33X speedup on CUDAEval and ParEval. When paired with DeepSeek-Coder-V2-Lite-Instruct and Qwen2.5-Coder-7B-Instruct, ReGraphT enables SLMs to approach LLM-level performance without the associated privacy risks or excessive computing overhead.
- Abstract(参考訳): CUDAプログラミングとドメイン固有ライブラリの大幅な進化にもかかわらず、GPUを大規模並列エンジンで効果的に活用することは依然として困難である。
大規模言語モデル(LLM)は、逐次コードから最適化されたCUDAコードを生成する強力な可能性を示している。
クラウドベースのAPIはコード漏洩のリスクを生じさせ、ローカルデプロイメントは計算コストが高く非効率であることが多い。
これらの欠点は、より軽量でプライバシーに優しい小言語モデル(SLM)への関心を喚起している。
最近の研究では、SLMが特定のタスクにおいてLLMに匹敵する性能を達成できることが示されている。
SLMはドメイン固有のタスクでLLMにマッチするが、その限られた推論能力は複雑なCUDA生成において最適以下の性能をもたらす。
このギャップを埋めるために、LLMレベルの推論をより小さなモデルに転送する、トレーニング不要で検索強化された生成フレームワークであるReGraphTを提案する。
ReGraphTはCUDA最適化トラジェクトリを構造化推論グラフに整理し、統合されたCUDA最適化を状態遷移としてモデル化し、効率的な探索にMCGS(Monte Carlo Graph Search)を利用する。
また、より包括的にモデルを評価するために、複雑な推論によって定義される難易度の高いCUDA固有のベンチマークも提示する。
実験により、ReGraphTはHPC固有の細調整されたモデルや他の検索拡張されたアプローチよりも優れており、CUDAEvalとParEvalで平均2.33倍のスピードアップを達成した。
DeepSeek-Coder-V2-Lite-Instruct と Qwen2.5-Coder-7B-Instruct と組み合わせることで、ReGraphT は SLM が LLM レベルのパフォーマンスにアプローチすることを可能にする。
関連論文リスト
- Tutoring LLM into a Better CUDA Optimizer [0.0]
我々は、事前定義されたよく知られたタスクのために最適化されたコードを生成する最新の推論モデルの能力に焦点を当てる。
我々の目的は、LLMが単独で行うことのできるコード最適化と並列パターンの種類や、チューリングによって改善できるかどうかを判断することである。
論文 参考訳(メタデータ) (2025-10-19T17:09:15Z) - HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration [13.53425131505526]
ディープラーニングは、モデルパラメータと計算要求の指数関数的な増加を促した。
NVIDIA GPUとそのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供する。
エコシステムは並列ソフトウェア分野において支配的な地位を確立してきた。
並列プログラミングのパラダイムとハードウェアの違いにより、コードを他のプラットフォームに翻訳することは大きな課題となる。
論文 参考訳(メタデータ) (2025-06-12T06:48:33Z) - CUDA-LLM: LLMs Can Write Efficient CUDA Kernels [9.287036563375617]
大規模言語モデル(LLM)は汎用コード生成において強力な機能を示している。
我々は,textbfFeature SearchReinforcement (FSR) FSRという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T10:51:03Z) - LLM-Sketch: Enhancing Network Sketches with LLM [10.886932940560477]
Sketchesは、バウンド精度でメモリオーバーヘッドを低くする、コンパクトなデータ構造である。
近年の研究では、機械学習を用いたスケッチの最適化が試みられている。
LLM-Sketchは,パケットヘッダ内のフローID以外のフィールドも,フローサイズを推測するのに役立つという知見に基づいて提案する。
論文 参考訳(メタデータ) (2025-02-11T11:54:56Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。