論文の概要: SimdBench: Benchmarking Large Language Models for SIMD-Intrinsic Code Generation
- arxiv url: http://arxiv.org/abs/2507.15224v1
- Date: Mon, 21 Jul 2025 03:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.247571
- Title: SimdBench: Benchmarking Large Language Models for SIMD-Intrinsic Code Generation
- Title(参考訳): SimdBench:SIMD固有のコード生成のための大規模言語モデルのベンチマーク
- Authors: Yibo He, Shuoran Zhao, Jiaming Huang, Yingjie Fu, Hao Yu, Cunjian Huang, Tao Xie,
- Abstract要約: 大きな言語モデルは、SIMD固有のプログラミングの課題でプログラマを支援することを約束している。
既存のコード生成ベンチマークではスカラーコードのみに焦点が当てられており、SIMDイントロニクスを用いたベクトル化コードの生成においてLLMがどのように機能するかは定かではない。
我々はSIMD固有のコード生成用に特別に設計された最初のコードベンチマークであるSimdBenchを提案する。
- 参考スコア(独自算出の注目度): 7.839161849517216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SIMD (Single Instruction Multiple Data) instructions and their compiler intrinsics are widely supported by modern processors to accelerate performance-critical tasks. SIMD intrinsic programming, a trade-off between coding productivity and high performance, is widely used in the development of mainstream performance-critical libraries and daily computing tasks. Large Language Models (LLMs), which have demonstrated strong and comprehensive capabilities in code generation, show promise in assisting programmers with the challenges of SIMD intrinsic programming. However, existing code-generation benchmarks focus on only scalar code, and it is unclear how LLMs perform in generating vectorized code using SIMD intrinsics. To fill this gap, we propose SimdBench, the first code benchmark specifically designed for SIMD-intrinsic code generation, comprising 136 carefully crafted tasks and targeting five representative SIMD intrinsics: SSE (x86 Streaming SIMD Extension), AVX (x86 Advanced Vector Extension), Neon (ARM Advanced SIMD Extension), SVE (ARM Scalable Vector Extension), and RVV (RISC-V Vector Extension). We conduct a systematic evaluation (measuring both correctness and performance) of 18 representative LLMs on SimdBench, resulting in a series of novel and insightful findings. Our evaluation results demonstrate that LLMs exhibit a universal decrease in pass@k during SIMD-intrinsic code generation compared to scalar-code generation. Our in-depth analysis highlights promising directions for the further advancement of LLMs in the challenging domain of SIMD-intrinsic code generation. SimdBench is fully open source at https://anonymous.4open.science/r/SimdBench-1B3F/ to benefit the broader research community.
- Abstract(参考訳): SIMD(Single Instruction Multiple Data)命令とコンパイラ固有の命令は、性能クリティカルなタスクを高速化するために、現代のプロセッサによって広くサポートされている。
SIMD固有のプログラミングは、コーディング生産性とハイパフォーマンスのトレードオフであり、主要なパフォーマンスクリティカルライブラリや日々のコンピューティングタスクの開発に広く利用されている。
コード生成において強力で包括的な機能を示すLarge Language Models (LLM)は、SIMD固有のプログラミングの課題でプログラマを支援することを約束している。
しかし、既存のコード生成ベンチマークではスカラーコードのみに焦点が当てられており、SIMDイントロニクスを用いたベクトル化コードの生成においてLLMがどのように機能するかは定かではない。
このギャップを埋めるために私たちは,SSE (x86 Streaming SIMD Extension), AVX (x86 Advanced Vector Extension), Neon (ARM Advanced SIMD Extension), SVE (ARM Scalable Vector Extension), RVV (RISC-V Vector Extension) の5つの代表的なSIMDイントロニクスを対象とする,SIMD固有のコード生成用に設計された最初のコードベンチマークであるSimdBenchを提案する。
我々は,SimdBench上で18個の代表LDMの系統的評価(正確さと性能の両立)を行い,新たな知見を得た。
評価結果は,SIMD固有のコード生成において,スカラーコード生成と比較して,LSMはパス@kを普遍的に減少させることを示した。
我々の詳細な分析は、SIMD固有のコード生成の挑戦領域におけるLCMのさらなる進歩に向けた有望な方向性を示すものである。
SimdBenchは、より広い研究コミュニティのために、https://anonymous.4open.science/r/SimdBench-1B3F/で完全にオープンソースである。
関連論文リスト
- RVISmith: Fuzzing Compilers for RVV Intrinsics [6.095757303490714]
本稿では,コンパイラのバグ検出のためのRVISmithを提案する。
RVISmith は RVV の最新のファジィザよりも11.5倍の内因性カバレッジを達成している。
論文 参考訳(メタデータ) (2025-07-04T18:45:46Z) - SIMCOPILOT: Evaluating Large Language Models for Copilot-Style Code Generation [5.880496520248658]
SIMCOPILOTは、対話型"コパイロット"スタイルのコーディングアシスタントとして、大規模言語モデル(LLM)の役割をシミュレートするベンチマークである。
ベンチマークには、Java(SIMCOPILOTJ)とPython用の専用のサブベンチマークが含まれている。
論文 参考訳(メタデータ) (2025-05-21T04:59:44Z) - OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - RGD: Multi-LLM Based Agent Debugger via Refinement and Generation Guidance [0.6062751776009752]
大規模言語モデル(LLM)は、コード生成タスクにおいて驚くべきポテンシャルを示しています。
LLMはタスク記述に基づいてコードを生成することができるが、精度は限られている。
コード生成と自動デバッグのためのLLMエージェントの新しいアーキテクチャ:Refinement and Guidancebug (RGD)を紹介する。
RGDはコード生成タスクを複数のステップに分割し、より明確なワークフローを確保し、自己回帰とフィードバックに基づいた反復的なコード改善を可能にする。
論文 参考訳(メタデータ) (2024-10-02T05:07:02Z) - Designing and Implementing a Generator Framework for a SIMD Abstraction Library [53.84310825081338]
SIMD抽象化ライブラリを生成するための新しいエンドツーエンドフレームワークであるTSLGenを提案する。
私たちのフレームワークは既存のライブラリに匹敵するもので、同じパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-26T13:25:38Z) - Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。
最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z) - A Case Study of LLVM-Based Analysis for Optimizing SIMD Code Generation [0.0]
本稿では,新しいARM A64FXプロセッサをターゲットとした DCA++ アプリケーションをチューニングするために,LLVM ベースのツールを使用する手法を提案する。
これらのコード変更を適用することで、コードスピードは1.98X増加し、A64FXプロセッサ上で78GFlopsを達成した。
論文 参考訳(メタデータ) (2021-06-27T22:38:16Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。