論文の概要: CodegenBench: Can LLMs Write Efficient Code Across Architectures?
- arxiv url: http://arxiv.org/abs/2606.04023v1
- Date: Mon, 01 Jun 2026 12:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.24188
- Title: CodegenBench: Can LLMs Write Efficient Code Across Architectures?
- Title(参考訳): CodegenBench: LLMはアーキテクチャ全体にわたって効率的なコードを書くことができるか?
- Authors: Jie Li, Wenzhao Wu, Junqi Hu, Qinrui Zheng, Bowen Wu, Juepeng Zheng, Yutong Lu, Haohuan Fu,
- Abstract要約: 汎用プログラミングとGPUアクセラレーション環境のためのコード生成タスクにおいて,大規模言語モデル (LLM) が広く評価されている。
CodegenBenchは、3つの異なるハードウェアプラットフォームにわたる効率的な並列コードの生成を評価するために設計されたベンチマークスイートである。
- 参考スコア(独自算出の注目度): 17.06172900876354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have been extensively evaluated on code generation tasks for general-purpose programming and GPU-accelerated environments (e.g., PyTorch, CUDA), their capabilities in CPU-oriented high-performance computing (HPC) across diverse architectures remain underexplored. To bridge this gap, we introduce CodegenBench, a comprehensive benchmark suite designed to evaluate the generation of efficient parallel code across three distinct hardware platforms: x86_64, Sunway, and Kunpeng. Our benchmark comprises 106 standard Basic Linear Algebra Subprograms (BLAS) routines establishing a fundamental baseline, alongside 20 specialized computational kernels adapted for each of the unique supercomputing architectures (LeetSunway and LeetKunpeng). Our extensive evaluation reveals that while state-of-the-art LLMs can generate optimized code for ubiquitous architectures like x86_64, they exhibit significant performance degradation on domain-specific architectures with limited public documentation and training data, highlighting critical limitations in cross-platform generalization. Furthermore, our analysis of factors influencing code quality such as implementation length and task complexity indicates that current LLMs are most effective for moderately difficult problems requiring concise code snippets. We open-source our dataset and automated evaluation infrastructure to facilitate future research in LLM-driven high-performance code generation. The resources are available at https://anonymous.4open.science/r/CodegenBench-EDE1/ and https://anonymous.4open.science/r/CodegenBenchDataset-2551.
- Abstract(参考訳): 大規模言語モデル(LLM)は汎用プログラミングやGPUアクセラレーション環境(例えばPyTorch、CUDA)のコード生成タスクで広く評価されているが、CPU指向のハイパフォーマンスコンピューティング(HPC)における様々なアーキテクチャの能力はいまだ検討されていない。
このギャップを埋めるために、私たちは、x86_64、Sunway、Kunpengという3つの異なるハードウェアプラットフォームにわたる効率的な並列コードの生成を評価するために設計された包括的なベンチマークスイートであるCodegenBenchを紹介した。
ベンチマークでは,BLAS(Basic Linear Algebra Sub Programs)の106のルーチンと,それぞれ独自のスーパーコンピュータアーキテクチャ(LeetSunwayとLeetKunpeng)に適合する20の特別な計算カーネルを比較検討した。
我々の広範な評価は、最先端のLLMがx86_64のようなユビキタスアーキテクチャ向けに最適化されたコードを生成することができる一方で、パブリックドキュメントやトレーニングデータに制限のあるドメイン固有のアーキテクチャにおいて、大幅なパフォーマンス劣化を示し、クロスプラットフォームの一般化における限界を強調していることを示している。
さらに,実装時間やタスクの複雑さなどのコード品質に影響する要因を解析した結果,現在のLCMは簡潔なコードスニペットを必要とする問題に対して最も効果的であることが示唆された。
LLM駆動の高性能コード生成における今後の研究を促進するため,我々はデータセットと自動評価インフラをオープンソース化した。
リソースはhttps://anonymous.4open.science/r/CodegenBench-EDE1/とhttps://anonymous.4open.science/r/CodegenBenchDataset-2551で入手できる。
関連論文リスト
- RealBench: A Repo-Level Code Generation Benchmark Aligned with Real-World Software Development Practices [54.956760584923295]
コード生成にLLM(Large Language Models)を使用することで、研究者は大幅に進歩した。
しかしながら、開発者は一般的に、生の自然言語記述ではなく、構造化された設計や仕様に基づいたコードを書く。
既存のベンチマークと実際の産業開発プラクティスのギャップは、現在のベンチマークスコアが、どれだけのコード生成が開発タスクの自動化に役立つかを正確に反映していないことを意味する。
論文 参考訳(メタデータ) (2026-04-24T15:35:54Z) - ArchBench: Benchmarking Generative-AI for Software Architecture Tasks [0.0]
ArchBenchは、ソフトウェアアーキテクチャタスクで大規模言語モデルをベンチマークするための最初の統一プラットフォームである。
データセットのダウンロード、トラジェクトリロギングによる推論、自動評価のための標準化されたパイプラインを備えたコマンドラインツールを提供する。
論文 参考訳(メタデータ) (2026-03-18T15:26:46Z) - Exploring the Feasibility of End-to-End Large Language Model as a Compiler [20.15972226865971]
大規模言語モデル(LLM)技術は、様々な領域で大きな利点を示している。
本稿では,コンパイラ(LaaC)としてのLCMの実現可能性とその今後の方向性について検討する。
論文 参考訳(メタデータ) (2025-11-06T07:21:42Z) - QuArch: A Benchmark for Evaluating LLM Reasoning in Computer Architecture [36.842856470579726]
QuArchは、コンピュータアーキテクチャにおける大規模言語モデル(LLM)機能の開発と評価を容易にするために設計された最初のベンチマークである。
評価の結果,フロンティアモデルはドメイン固有の知識を持っているが,高次思考を必要とするスキルに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-24T23:54:17Z) - HPCTransCompile: An AI Compiler Generated Dataset for High-Performance CUDA Transpilation and LLM Preliminary Exploration [13.53425131505526]
ディープラーニングは、モデルパラメータと計算要求の指数関数的な増加を促した。
NVIDIA GPUとそのソフトウェアエコシステムは、並列コンピューティングの堅牢なサポートを提供する。
エコシステムは並列ソフトウェア分野において支配的な地位を確立してきた。
並列プログラミングのパラダイムとハードウェアの違いにより、コードを他のプラットフォームに翻訳することは大きな課題となる。
論文 参考訳(メタデータ) (2025-06-12T06:48:33Z) - OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs [62.68905180014956]
我々は,500万の多様なサンプルからなる最大オープンアクセス命令チューニングデータセットであるOpenCodeInstructを紹介した。
各サンプルには、プログラミング質問、ソリューション、テストケース、実行フィードバック、LLM生成の品質評価が含まれている。
LLaMAやQwenなど,さまざまなベースモデルを,データセットを使用して複数のスケール(1B+,3B+,7B+)にわたって微調整します。
論文 参考訳(メタデータ) (2025-04-05T02:52:16Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。