論文の概要: MultiKernelBench: A Multi-Platform Benchmark for Kernel Generation
- arxiv url: http://arxiv.org/abs/2507.17773v1
- Date: Sun, 20 Jul 2025 00:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.212147
- Title: MultiKernelBench: A Multi-Platform Benchmark for Kernel Generation
- Title(参考訳): MultiKernelBench: カーネル生成のためのマルチプラットフォームベンチマーク
- Authors: Zhongzhen Wen, Yinghui Zhang, Zhong Li, Zhongxin Liu, Linna Xie, Tian Zhang,
- Abstract要約: MultiKernelBenchは、大規模言語モデル(LLM)を用いたディープラーニングカーネル生成のためのベンチマークである。
14の明確に定義されたカーネルカテゴリにまたがる285のタスクにまたがっており、3つの主要なハードウェアプラットフォームをサポートしている。
課題の難易度, トレーニング露出の少ないプラットフォームへの一般化の低さ, ターゲット型プロンプト戦略の有効性について検討した。
- 参考スコア(独自算出の注目度): 17.461533973039064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automatic generation of deep learning (DL) kernels using large language models (LLMs) has emerged as a promising approach to reduce the manual effort and hardware-specific expertise required for writing high-performance operator implementations. However, existing benchmarks for evaluating LLMs in this domain suffer from limited hardware support, coarse-grained kernel categorization, and imbalanced task coverage. To address these limitations, we introduce MultiKernelBench, the first comprehensive, multi-platform benchmark for LLM-based DL kernel generation. MultiKernelBench spans 285 tasks across 14 well-defined kernel categories and supports three major hardware platforms: Nvidia GPUs, Huawei NPUs, and Google TPUs. To enable future extensibility, we design a modular backend abstraction layer that decouples platform-specific logic from the core benchmarking infrastructure, allowing easy integration of new hardware platforms. We further propose a simple yet effective category-aware one-shot prompting method that improves generation quality by providing in-category exemplars. Through systematic evaluations of seven state-of-the-art LLMs, we reveal significant variation in task difficulty, poor generalization to platforms with less training exposure, and the effectiveness of targeted prompting strategies. MultiKernelBench is publicly available at https://github.com/wzzll123/MultiKernelBench.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いたディープラーニング(DL)カーネルの自動生成は,高性能演算子実装記述に必要な手作業やハードウェア固有の専門知識を削減するための,有望なアプローチとして登場した。
しかし、この領域でLLMを評価するための既存のベンチマークは、ハードウェアサポートの制限、粗粒度のカーネル分類、不均衡なタスクカバレッジに悩まされている。
これらの制限に対処するため、LLMベースのDLカーネル生成のための総合的マルチプラットフォームベンチマークであるMultiKernelBenchを紹介する。
MultiKernelBenchは、14の明確に定義されたカーネルカテゴリにまたがる285のタスクにまたがって、Nvidia GPU、Huawei NPU、Google TPUという3つの主要なハードウェアプラットフォームをサポートする。
将来の拡張性を実現するために,コアベンチマークインフラストラクチャからプラットフォーム固有のロジックを分離するモジュール形式のバックエンド抽象化層を設計し,新たなハードウェアプラットフォームを容易に統合する。
さらに,カテゴリ内の例を示すことによって生成品質を向上させる,シンプルで効果的なカテゴリ対応ワンショットプロンプト手法を提案する。
7つのLLMの系統的評価を通じて,課題の難易度,訓練の少ないプラットフォームへの一般化の低さ,目標とするプロンプト戦略の有効性を明らかにした。
MultiKernelBenchはhttps://github.com/wzzll123/MultiKernelBenchで公開されている。
関連論文リスト
- Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - GPU Performance Portability needs Autotuning [0.0]
LLMは複雑さが増し、最先端のパフォーマンスを達成するには、アルゴリズム、ソフトウェア、ハードウェア間の密な共同設計が必要である。
JIT(Just-in-time)コンパイルと包括的カーネルパラメータの自動チューニングを併用する。
我々の結果は、GPUベンダー間のモデルポータビリティをアンロックするための有望なパスとして、オートチューニングを強調しています。
論文 参考訳(メタデータ) (2025-04-30T12:57:21Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - BYOS: Knowledge-driven Large Language Models Bring Your Own Operating System More Excellent [32.81416809245337]
カーネルチューニングは、システムパフォーマンスを最適化するためにカーネル構成を体系的に調整する。
近年の大規模言語モデル(LLM)の進歩にもかかわらず、カーネルチューニングは依然として重要な課題である。
カーネルチューニングのためのLLMフレームワークを自動化したBYOSを提案する。
論文 参考訳(メタデータ) (2025-03-12T15:50:16Z) - KernelBench: Can LLMs Write Efficient GPU Kernels? [36.4117525096377]
KernelBenchは、高速で正確なカーネルを記述する言語モデルの能力を評価するためのオープンソースのフレームワークである。
本稿では,関数的に正しい生成カーネルの割合を計測する,新しい評価基準であるfast_pを紹介する。
実験の結果,フロンティア推論モデルが最も優れているが,全体としては不足していることがわかった。
論文 参考訳(メタデータ) (2025-02-14T19:30:53Z) - LLM-Inference-Bench: Inference Benchmarking of Large Language Models on AI Accelerators [1.1028525384019312]
LLM(Large Language Models)は、複数のドメインにまたがる画期的な進歩を推進し、テキスト生成アプリケーションに一般的に使われている。
LLMのハードウェア推論性能を評価するための総合ベンチマークスイートであるLLM-Inference-Benchを紹介する。
ベンチマークの結果、さまざまなモデル、ハードウェアプラットフォーム、推論フレームワークの長所と短所が明らかになりました。
論文 参考訳(メタデータ) (2024-10-31T18:34:59Z) - Large Language Model Inference Acceleration: A Comprehensive Hardware Perspective [32.827076621809965]
大規模言語モデル(LLM)は、様々な分野において顕著な能力を示している。
GPTシリーズやLlamaシリーズのようなLLMは、アルゴリズム性能が優れているため、現在主要な焦点となっている。
様々なハードウェアプラットフォームは異なるハードウェア特性を示しており、LLM推論性能を向上させるのに役立つ。
論文 参考訳(メタデータ) (2024-10-06T12:42:04Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - Benchmarking Predictive Coding Networks -- Made Simple [48.652114040426625]
機械学習における予測符号化ネットワーク(PCN)の効率性とスケーラビリティの問題に取り組む。
そこで我々は,PCXと呼ばれる,パフォーマンスと簡易性を重視したライブラリを提案する。
我々は,PCNの既存アルゴリズムと,生物工学的な深層学習コミュニティで普及している他の手法を併用して,このようなベンチマークを広範囲に実施する。
論文 参考訳(メタデータ) (2024-07-01T10:33:44Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。